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内 容 提 要 


本 书 结合 案例 研究 讲解 Spark 在 机 器 学 习 中 的 应 用 ， 并 介绍 如 何 从 各 种 公开 渠道 获取 用 于 机 器 学 习 系 
统 的 数据 。 内 容 涵盖 推荐 系统 、 回 归 、 聚 类 、 降 维 等 经 典 机 器 学 习 算 法 及 其 实际 应 用 。 第 2 版 新 增 了 有 关 
机 器 学 习 数 学 基础 以 及 Spark ML Pipeline API 的 章节 ， 内 容 更 加 系统 、 全 面 、 与 时 俱 进 。 

本 书 适 合 数据 分 析 从 业 人 员 以 及 高 校 数 据 挖掘 相关 专业 师 生 阅读 参考 。 
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近年 来 , 被 收集 、 存储 和 分 析 的 数据 量 呈 爆炸 式 增长 , 特别 是 与 网 络 、 移 动 设备 相关 的 数据 ， 
以 及 传感器 产生 的 数据 。 大 规模 数据 的 存储 、 处 理 、 分 析 和 建 模 ， 以 前 只 有 Google 、Yahool!、 
Facebook 、Twitter 和 Salesforce 这 样 的 大 公司 才 会 涉及 ， 而 现在 越 来 越 多 的 机 构 都 会 面 对 处 理 海 
量 数据 的 挑战 。 


面 对 如 此 量 级 的 数据 以 及 稼 见 的 实时 利用 数据 的 需求 , 人 工 驱动 的 系统 就 难以 应 对 。 这 就 催 
生 了 所 谓 的 大 数据 和 机 器 学 习 系统 ， 它 们 从 数据 中 学 习 并 可 自动 决策 。 


为 了 能 以 低 成 本 实现 对 持续 增长 的 大 规模 数据 的 支持 , Google、Yahoo!、Amazon 和 Facebook 
等 公司 推出 了 大 量 开源 技术 。 这些 技 术 旨 在 通过 在 计算 机 集群 上 进行 分 布 式 数据 存储 和 计算 来 简 
化 大 数据 处 理 。 


这 些 技术 中 最 广为人知 的 是 Apache Hadoop, 它 极 大 地 简化 了 海量 数据 的 存储 (通过 HDFS ， 
即 Hadoop distributed file system ) 和 计算 (通过 Hadoop MapReduce, 一 种 在 集群 里 多 个 节点 上 进 
行 并 行 计算 的 框架 ) 流程 ， 并 降低 了 相应 的 成 本 。 


然而 ， MapReduce 有 其 严重 的 缺点 ， 如 启动 任务 时 的 高 开销 、 对 中 间 数 据 和 计算 结果 写 人 磁 
盘 的 依赖 。 这 些 都 使 得 Hadoop 不 适合 迭代 式 或 低 延迟 的 任务 。Apache Spark 是 一 个 新 的 分 布 式 
计算 框架 ， 从 设计 开始 便 注 重 对 低 延 迟 任务 的 优化 ,并 将 中 间 数 据 和 结果 保存 在 内 存 中 ， 从 而 弥 
补 了 Hadoop 框架 中 的 一 些 主要 缺陷 。Spark 提供 简洁 明了 的 函数 式 API， 并 完全 兼容 Hadoop 生 
态 系统 。 


不 止 如 此 ，Spark 还 提供 针对 Scala、Java、Python 和 及 语言 的 原生 API。 通过 Scala 和 Python 
的 API，Spark 应 用 程序 可 充分 利用 Scala 或 Python 语言 的 优势 。 这 些 优势 包括 使 用 相关 的 解释 
程序 进行 实时 交互 式 的 程序 编写 。Spark 现在 还 自 带 了 一 个 支持 分 布 式 机 器 学 习 和 包含 若干 数据 
挖掘 模型 的 工具 包 ( 1.6 版 中 为 Spark MLlib, 2.0 版 则 对 应 Spark ML )。 该 工具 包 正 在 重点 开发 中 ， 
但 已 包括 多 个 针对 常见 机 器 学 习 任 务 的 高 质量 、 可 扩展 的 算法 。 本 书 将 会 涉及 部 分 此 类 任务 。 

在 大 型 数据 集 上 进行 机 器 学 习 颇 具 挑 战 性 。 这 主要 是 因为 常见 的 机 器 学 习 算 法 并 非 为 并 行 架 
构 而 设计 。 多 数 情况 下 ,设计 这 样 的 算法 并 不 容易 。 机 融 学 习 模 型 一 般 具 有 和 迭代 式 的 特性 ， 而 这 
与 Spark 的 设计 目标 一 致 。 并 行 计算 的 框架 有 很 多 ， 但 很 少 能 在 兼顾 速度 、 可 扩展 性 、 内 存 处 理 
















































































































































































和 容错 性 的 同时 ， 还 提供 灵活 、 表 达 力 丰富 的 API。Spark 是 其 中 为 数 不 多 的 一 个 。 


本 书 将 关注 机 器 学 习 技术 的 实际 应 用 。 我 们 会 简要 介绍 机 器 学 习 算 法 的 一 些 理论 知识 , 但 总 
体 来 说 本 书 注重 技术 实践 ,具体 来 说 ,我 们 会 通过 示例 程序 和 样 例 代码 ,举例 说 明 如 何 借助 Spark、 
MLlib 以 及 其 他 常见 的 免费 机 器 学 习 和 数据 分 析 套件 来 创建 一 个 有 用 的 机 器 学 习 系 统 。 


本 书 内 容 


第 1 章 “Spark 的 环境 搭建 与 运行 ”会 讲 到 如 何 安 装 和 搭建 Spark 框架 的 本 地 开发 环境 ， 以 
及 怎样 使 用 Amazon EC2 在 云端 创建 Spark 集群 ， 然 后 会 介绍 Spark 编程 模型 和 API; 最 后 分 别 
用 Scala、Java 和 Python 语言 创建 一 个 简单 的 Spark 应 用 。 


第 2 章 “ 机 器 学 习 的 数学 基础 ”会 提供 机 器 学 习 所 需 的 基础 数学 知识 。 要 理解 算法 ， 从 而 获 
得 更 好 的 建 模 效果 ， 理 解数 学 及 其 技巧 十 分 重要 。 


第 3 章 “ 机 器 学 习 系 统 设 计 ” 会 展示 一 个 贴 合 实际 的 机 器 学 习 系统 案例 。 随 后 会 针对 该 案例 
设计 一 个 基于 Spark 的 智能 系统 所 对 应 的 高 层 架 构 。 


第 4 章 “Spark 上 数据 的 获取 、 处 理 与 准备 ”会 详细 介绍 如 何 从 各 种 免费 的 公开 渠道 获取 用 
于 机 器 学 习 系 统 的 数据 。 我 们 将 学 到 如 何 进行 数据 处 理 和 清理 ， 并 通过 可 用 的 工具 、 库 和 Spark 
函数 将 它们 转换 为 符合 要 求 的 数据 ， 使 之 具备 可 用 于 机 器 学 习 模型 的 特征 。 


第 5 章 “Spark 构建 推荐 引擎 ”展示 了 如 何 创建 一 个 基于 协同 过 滤 的 推荐 模型 。 该 模型 将 用 
于 向 给 定 用 户 推荐 物品 , 以 及 创建 与 给 定 物品 相似 的 物品 清单 。 这 一 章 还 会 讲 到 如 何 使 用 标准 指 
标 来 评估 推荐 模型 的 效果 。 

第 6 章 “Spark 构建 分 类 模型 ” 曾 述 如 何 创建 二 元 分 类 模型 ， 以 及 如 何 利用 标准 的 性 能 评估 
8 标 来 评估 分 类 效果 。 

第 7 章 “Spark 构建 回归 模型 ”扩展 了 第 6 章 中 的 分 类 模型 以 创建 一 个 回归 模型 ， 并 详细 介 
绍 了 回归 模型 的 评估 指标 。 

第 8 章 “Spark 构建 聚 类 模型 ”探索 如 何 创 建 到 类 模型 以 及 相关 评估 方法 的 使 用 。 你 会 学 到 
如 何 分 析 和 可 视 化 聚 类 结果 。 

第 9 章 “Spark 应 用 于 数据 降 维 ”将 通过 多 种 方法 从 数据 中 提取 其 内 在 结构 并 降低 其 维度 。 
你 会 学 到 一 些 常见 的 降 维 方法 ， 以 及 如 何 对 它们 进行 应 用 和 分 析 。 这 里 还 会 讲 到 如 何 将 降 维 的 结 
果 作 为 其 他 机 器 学 习 模型 的 输入 。 

第 10 章 “Spark 高 级 文本 处 理 技术 ”介绍 了 处 理 大 规模 文本 数据 的 方法 。 这 包括 从 文本 中 
提取 特征 以 及 处 理 文本 数据 中 常见 的 高 维特 征 的 方法 。 



























































































































































第 11 章 “Spark Streaming 实时 机 器 学 习 ” 对 Spark Streaming 进行 了 综述 ， 并 介绍 它 如 何 
在 流 数据 上 的 机 器 学 习 中 实现 对 在 线 和 增 量 学 习 方 法 的 支持 。 


第 12 章 “Spark ML Pipeline API” 在 Data Frames 的 基础 上 提供 了 一 套 统 一 的 接口 (API )， 
帮助 用 户 创 建 和 调试 机 器 学 习 流 程 。 
预备 知识 

本 书 假设 读者 已 有 基本 的 Scala、Java、Python 或 R 编程 经 验 ， 以 及 机 器 学 习 、 统 计 学 和 数 
据 分 析 方 面 的 基础 知识 。 
目标 读者 

本 书 的 预期 读者 是 初 、 中 级 数据 科学 研究 者 、 数 据 分 析 师 、 软 件 工程 师 和 对 大 规模 环境 下 的 
机 器 学 习 或 数据 挖掘 感 兴趣 的 人 。 读 者 不 需要 熟悉 Spark, 但 若 具 有 统计 、 机 器 学 习 相关 软件 ( 比 
如 MAITLAB 、scikit-learn 、Mahout、R 或 Weka 等 ) 或 分 布 式 系统 ( 如 Hadoop ) 的 实践 经 验 ， 会 
很 有 帮助 。 
排版 约定 

在 本 书 中 ， 你 会 发 现 一 些 不 同 的 文本 样式 ， 用 以 区 别 不 同 种 类 的 信息 。 下 面 举例 说 明 。 

代码 段 的 格式 如 下 : 























val conf = new SparkConf() 
.SetAppName ("Test Spark App") 
.SetMaster ("local[4]") 

val sc = new SparkContext (conf) 


所 有 的 命令 行 输入 或 输出 的 格式 如 下 : 


> tar xfvz spark-2.1.0-bin-hadoop2.7.tgz 
> cd spark-2.1.0-bin-hadoop2.7 


新 术语 和 重点 词汇 以 黑体 表示 。 屏 幕 、 目 录 或 对 话 框 上 的 内 容 这 样 表示 :“ 这 些 信息 可 以 从 
AWS 主页 上 依次 点 击 Account | Security Credentials | Access Credentials 看 到 。” 


外 这 个 图 标 表 示警 告 或 需要 特别 注意 的 内 容 。 


盆 这 个 图 标 表示 提示 或 技巧 。 





读者 反馈 


欢迎 提出 反馈 。 如 果 你 对 本 书 有 任何 想法 ， 喜 欢 它 什么 ， 不 喜欢 它 什 么 ， 请 让 我 们 知道 。 要 
写 出 真正 对 大 家 有 帮助 的 书 ， 了 解读 者 的 反馈 很 重要 。 一 般 的 反馈 ， 请 发 送 电子 邮件 至 
feedback@packtpub.com， 并 在 邮件 主题 中 包含 书 名 。 如 果 你 有 某 个 主题 的 专业 知识 ， 并 且 有 兴 
写成 或 帮助 促成 一 本 书 , 请 参考 我 们 的 作者 指南 https://www.packtpub.com/books/info/packt/authors。 





























现在 ， 你 是 一 位 令 人 自豪 的 Packt 图 书 的 拥有 者 ， 我 们 会 尽 全 力 帮 你 充分 利用 你 手中 的 书 。 


下 载 示例 代码 


你 可 以 用 你 的 账户 从 https:/www.packtpub.com 下 载 所 有 已 购买 Packt 图 书 的 示例 代码 文件 。 如 
果 你 从 其 他 地 方 购买 本 书 ， 可 以 访问 https://www.packtpub.com/books/content/support 并 注册 ， 我 
们 将 通过 电子 邮件 把 文件 发 送 给 你 。 


你 可 通过 如 下 步 又 下 载 本 书 示例 代码 : 


(1) 在 上 述 网 站 上 ， 使 用 你 自己 的 邮件 地 址 和 密码 登录 或 注册 ; 
(2) 将 鼠标 移动 到 顶部 的 SUPPORT 标签 页 ; 

(3) 点 击 Code Downloads & Errata ; 

(4) 在 Search 栏 中 输入 本 书 名 ; 

(5) 在 搜索 结果 中 选择 要 下 载 代码 的 书 ; 

(6) 从 下 拉 菜 单 中 选择 从 何 处 购买 的 本 书 ; 

(7) 点 击 Code Download 下 载 包含 代码 和 部 分 数据 的 代码 包 。 


代码 包 下 载 后 ， 请 使 用 如 下 软件 的 最 新 版 本 来 解压 缩 或 提取 所 含 资料 : 


口 Windows 上 建议 使 用 WinRAR/7-Zip; 
口 Mac 上 建议 使 用 Zipeg/iZip/UnRarX; 
口 Linux 上 建议 使 用 7-Zip/PeaZip。 






































代码 包 在 GitHub 上 也 可 获取 ,地 址 为 https://github.com/PacktPublishing/Machine-Learning-with- 
Spark-Second-Edition。https://github.com/PacktPublishing 上 也 列 出 了 我 们 所 出 版 的 各 类 图 书 和 视 
频 的 代码 包 ， 欢 迎 查 看 。 








GD 读者 也 可 访问 本 书 图 灵 社 区 页 面 (http:/www.ituring.com.cn/book/2041 ) 下 载 示 例 代码 及 彩 图 ， 并 提交 本 书 中 文 版 
勘误 。 编者 注 
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虽然 我 们 已 尽力 确保 本 书 内 容 正确 ， 但 出 错 仍 旧 在 所 难免 。 如 果 你 在 我 们 的 书 中 发 现 错误 ， 
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我 们 改进 本 书 的 后 续 版 本 。 如 果 你 发 现任 何 错误 ， 请 访问 https://www.packtpub.com/books/info/ 
packt/errata-submission-form-0 提交 ，, 选择 你 的 书 , 点 击 勘 误 表 提交 表单 的 链接 ( Errata Submission 
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Spark 的 环境 搭建 与 运行 








Apache Spark 是 一 个 分 布 式 计算 框架 ， 旨 在 简化 运行 于 计算 机 集群 或 虚拟 机 上 的 并 行程 序 的 
户 写 。 该 框架 对 资源 调度 ， 任 务 的 提交 、 执 行 和 跟踪 ， 节点 间 的 通信 以 及 数据 并 行 处 理 的 内 在 
底层 操作 都 进行 了 抽象 。 它 提供 了 一 一 个 更 高 级 别 的 API 来 处 理 分 布 式 数据 。 从 这 方面 说 ， 它 与 
Apache Hadoop 等 分 布 式 处 理 框架 类 似 。 但 在 底层 架构 上 ，Spark 与 它们 有 所 不 同 。 


Spark 起 源 于 加 州 大 学 伯克利 分 校 AMP 实验 室 的 一 个 研究 项 目 。 该 高 校 当 时 关注 分 布 式 机 带 
A 用 情况 。 因 此 ，Spark 从 一 开始 便 是 为 应 对 迭代 式 应 用 的 高 性 能 需求 而 设计 的 。 在 
类 应 用 中 , 相同 的 数据 会 被 多 次 访问 。 该 设计 主要 通过 在 内 存 中 缓存 数据 集 以 及 启动 并 行 计算 
ee 再 加 上 其 容错 性 、 灵 活 的 分 布 式 数 据 结构 和 强大 的 
函数 式 编程 接口 , Spark 在 各 类 基于 机 器 学 习 和 人 迭代 分 析 的 大 规模 数据 处 理 任务 上 有 广泛 的 应 用 ， 
这 也 表明 了 其 实用 性 。 
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关于 Spark 项 目的 更 多 信息 ， 请 参见 


口 http://spark.apache.org/community.html 





口 http://spark.apache.org/community.html#history 
从 性 能 上 说 ，Spark 在 不 同 工 作 负载 下 的 运行 速度 明显 高 于 Hadoop ， 如 下 图 所 示 。 
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来 源 : https://amplab.cs.berkeley.edu/wp-content/uploads/2011/11/spark-lr.png 


Spark 支持 4 种 运行 模式 。 





2 第 1 章 Spark 的 环境 搭建 与 运行 





口 本 地 单机 模式 : 所 有 Spark 进程 都 运行 在 同一 个 Java 虚拟 机 (JVM,， Java virtual machine ) 
进程 中 。 

口 集群 单机 模式 : 使 用 Spark 内 置 的 任务 调度 框架 。 

口 基于 Mesos: Mesos 是 一 个 流行 的 开源 集群 计算 框架 。 

口 基于 Hadoop YARN: YARN 常 被 称 作 NextGen MapReduce。 


本 童 主要 包括 以 下 内 容 。 


口 下 载 Spark 二 进 制版 本 , 并 搭建 一 个 在 本 地 单机 模式 下 运行 的 开发 环境 。 本 书 各 章 的 代码 
示例 都 在 该 环境 下 运行 。 

口 通过 Spark 的 交互 式 终端 来 了 解 它 的 编程 模型 及 API。 

口 分 别 用 Scala、Java、R 和 Python 语言 来 编写 第 一 个 Spark 程序 。 

口 在 Amazon 的 EC2 (Elastic Cloud Compute ) 平台 上 架设 一 个 Spark 集群 。 相 比 本 地 模式 ， 
该 集群 可 以 应 对 数据 量 更 大 、 计 算 更 复杂 的 任务 。 

口 借助 Amazon Elastic Map Reduce 服务 来 构建 一 个 Spark 集群 。 


如 果 读 者 曾 构建 过 Spark 环境 并 熟悉 有 关 Spark 程序 编写 的 基础 知识 ， 可 以 跳 过 本 章 。 




























































































1.1 Spark 的 本 地 安装 与 配置 


Spark 能 通过 内 置 的 单机 集群 调度 器 在 本 地 模式 下 运行 。 此 时 ， 所 有 的 Spark 进程 都 高 效 地 
运行 在 同一 个 Java 虚拟 机 中 。 这 实际 上 构造 了 一 个 独立 、 多 线程 版 本 的 Spark 环境 。 本 地 模式 常 
用 于 原型 设计 、 开 发 、 调 试 及 测试 。 同 样 ， 它 也 适应 于 在 单机 上 进行 多 核 并 行 计算 的 实际 场景 。 


Spark 的 本 地 模式 与 集群 模式 完全 兼容 ， 在 本 地 编写 和 测试 过 的 程序 仅 需 增 加 少许 设置 便 能 
在 集群 上 运行 。 


本 地 构建 Spark 环境 的 第 一 步 是 下 载 其 最 新 的 版 本 包 。 各 版 本 的 版 本 包 及 源 代码 的 GitHub 
地 址 可 在 Spark 项 目的 下 载 页 面 找到 : http:/spark.apache.org/downloads.html。 


















































Spark 的 在 线 文档 ( http://spark.apache.org/docs/latest/ ) 涵盖 了 进一步 学 习 
Spark 所 需 的 各 种 资料 。 强 烈 推 荐 读者 浏览 查阅 。 


为 了 访问 Hadoop 分 布 式 文件 系统 ( HDFS ) 以 及 标准 或 定制 的 Hadoop 输入 源 ，Spark 的 编 
译 需 要 与 Hadoop 的 版 本 对 应 。 上 述 下 载 页 面 提供 了 针对 Cloudera 的 Hadoop 发 行 版 ( CHD )、 
MapR 的 Hadoop 发 行 版 和 Hadoop 2 (YARN ) 的 预 编译 二 进 制 包 。 除 非 你 想 构 建 针 对 特定 版 本 
Hadoop 的 Spark， 否 则 建议 你 通过 如 下 链接 从 Apache 镜像 下 载 Hadoop 2.7 预 编 译 版 本 : 
http://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz。 


Spark 的 运行 依赖 Scala 编程 语言 ( 写作 本 书 时 为 2.10.x 或 2.11x 版 )。 好 在 预 编 译 的 二 进 肖 
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包 中 已 包含 Scala 运行 环境 ， 我 们 不 需要 另外 安装 Scala 便 可 运行 Spark。 但 是 ， 你 需要 先 安 装 好 
Java 运行 时 环境 ( JRE ) 或 Java 开发 工具 包 (JDK )。 


9 相应 的 安装 指南 可 参见 本 书 代码 包 中 的 软 硬 件 列表 。 推 荐 使 用 及 3.1 或 以 上 
版 本 


9 








下 载 完 上 述 版 本 包 后 ， 在 终端 输入 如 下 指令 解压 软件 包 并 进入 解压 出 的 文件 夹 : 


$ tar xfvz spark-2.0.0-bin-hadoop2.7.tgz 
$ cd spark-2.0.0-bin-hadoop2.7 


用 户 启动 Spark 所 用 的 脚本 在 该 目录 的 bn 文件 夹 下 。 可 通过 如 下 命令 运行 Spark 附带 的 一 
个 示例 程序 来 测试 是 否 一 切 正常 : 














$ ./bin/run-example SparkPi 100 


该 命令 将 在 本 地 单机 模式 下 运行 SparkPi 这 个 示例 。 在 该 模式 下 ， 所 有 的 Spark 进程 均 运 行 
于 同一 个 JVM 中 ， 而 并 行 处 理 则 通过 多 线程 来 实现 。 默 认 情 况 下， 该 示例 会 启用 的 线程 数 与 本 
地 系统 的 CPU 核心 数目 相同 。 示 例 运 行 完 后 ， 应 可 在 输出 的 结尾 看 到 如 下 的 提示 : 











16/11/24 14:41:58 INFO Executor: Finished task 99.0 in stage 0.0 
(TID 99). 872 bytes result sent to driver 

16/11/24 14:41:58 INFO TaskSetManager: Finished task 99.0 in stage 
0.0 (TID 99) in 59 ms on localhost (100/100) 

16/11/24 14:41:58 INFO DAGScheduler: ResultStage 0 (reduce at 
SparkPi.scala:38) finished in 1.988 s 

16/11/24 14:41:58 INFO TaskSchedulerImpl: Removed TaskSet 0.0, 
whose tasks have all completed, from pool 

16/11/24 14:41:58 INFO DAGScheduler: Job 0 finished: reduce at 
SparkPi.scala:38, took 2.235920 5s 

Pi is roughly 3.1409527140952713 








命令 调用 了 org.apache.spark.examples.SparkPi 类 。 


类 以 local [N] 格 式 来 接受 输入 参数 ， 其 中 人 表示 要 启用 的 线程 数目 。 比 如 只 使 用 两 个 线 
a 0 命令 : 


$ ./bin/spark-submit --class org.apache .spark.examples.SparkPi 
--master local[2] ./examples/jars/spark-examples 2.11-2.0.0.jar 100 


按 惯例 ， 将 命令 中 的 local[2] 改 为 local[*] 则 会 使 用 本 机 所 有 可 用 的 核心 。 


1.2 Spark 集群 


Spark 集群 由 两 类 进程 构成 : 一 个 驱动 程序 和 多 个 执行 程序 。 在 本 地 模式 下 ， 所 有 的 进程 都 
运行 在 同一 个 JVM 内 ， 而 在 集群 模式 下 时 ， 它 们 通常 运行 在 不 同 的 节点 上 。 
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举例 来 说 , 一 个 采用 单机 模式 的 Spark 集群 ( 即使 用 Spark 内 置 的 集群 管理 模块 ) 通常 包括 : 


口 一 个 运行 Spark 单机 主 进程 和 了 驱动 程序 的 主 节点 
口 各 自 运 行 一 个 执行 程序 进程 的 多 个 工作 节点 


在 本 书 中 ,我 们 将 使 用 Spark 的 本 地 单机 模式 进行 概念 阐述 和 举例 说 明 ,， 但 所 用 的 代码 也 可 
运行 在 Spark 集群 上 。 比 如 在 一 个 Spark 单机 集群 上 运行 上 述 示例 , 只 需 传人 主 节 点 的 URL 即 可 : 





























$ MASTER=spark://IP:PORT --class org.apache .spark.examples .SparkPi 
./examples/jars/spark-examples 2.11-2.0.0.jar 100 


其 中 的 IP 和 PORT 分 别 是 主 节点 PP 地址 和 端口 号 。 这 是 告诉 Spark 让 示例 程序 在 主 节 点 所 
对 应 的 集群 上 运行 。 

Spark 集群 管理 和 部 署 的 完整 方案 不 在 本 书 的 讨论 范围 内 。 但 是 , 本 章 后 面 会 对 Amazon EC2 
集群 的 设置 和 使 用 做 简要 说 明 。 























Spark 集群 部 署 的 概要 介绍 可 参见 如 下 链接 : 


DD http://spark.apache.org/docs/latest/cluster-overview.html 





口 http://spark.apache.org/docs/latest/submitting-applications.html 


1.3 Spark 编程 模型 


在 对 Spark 的 设计 进行 更 全 面 的 介绍 前 ， 我 们 先 介 绍 sparkcontext 对 象 以 及 Spark shell。 
后 面 将 通过 它们 来 了 解 Spark 编程 模型 的 基础 知识 。 
虽然 这 里 会 对 Spark 的 使 用 进行 简要 介绍 并 提供 示例 , 但 我 们 推荐 读者 通过 如 下 资料 来 获得 
更 深入 的 理解 。 





























请 参考 如 下 链接 。 


《人 口 Spark 快速 入 门 : http://spark.apache.org/docs/latest/quick-start.html。 
口 针对 Scala、Java、Python 和 及 的 Spark 编程 指南 : http://spark.apache.org/docs/ 
latest/rdd-programming-guide.html。 





1.3.1 SparkContext 类 与 SparkConf 类 








任何 Spark 程序 的 编写 都 是 从 sparkcontext (或 用 Java 编写 时 的 JavaSparkContext ) 
开始 的 。sparkcontext 的 初始 化 需要 sparkconf 对 象 的 一 个 实例 ， 后 者 包含 了 Spark 集群 配 
置 的 各 种 参数 ， 比 如 主 节 点 的 URL。 
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SparkContext 是 调用 Spark 功能 的 一 个 主要 入 口 。 一 个 sparkContext 对 象 代 表 与 一 个 
Spark 集群 的 连接 。 它 能 用 于 创建 RDD 对 象 、 累 加 器 或 在 集群 内 广播 变量 。 


每 个 JVM 上 都 只 能 有 一 个 Sparkcontext 对 象 。 在 创建 一 个 新 的 对 象 前 ， 必 须 调用 现 有 对 
象 的 stop () 函数 。 


初始 化 后 ， 便 可 用 Sparkcontext 对 象 所 包含 的 各 种 方法 来 创建 和 操作 分 布 式 数据 集 和 共 
享 变量 。Spark shell (在 Scala 和 Python 下 可 以 ， 但 不 支持 Java ) 能 自动 完成 上 述 初始 化 。 知 要 
用 Scala 代码 来 实现 的 话 ， 可 参照 下 面 的 代码 : 

















val conf = new SparkConf() 
.SetAppName ("Test Spark App") 
.SetMaster ("local[4]") 

val sc = new SparkContext (conf) 


这 段 代码 会 创建 一 个 4 线程 的 sparkcontext 对 象 ， 并 将 其 相应 的 应 用 程序 命名 为 Test 
Spark APP。 也 可 通过 如 下 方式 调用 SparkContext 的 简单 构造 孔 数 ， 以 默认 的 参数 值 来 创建 
相应 的 对 象 ， 其 效果 和 上 述 的 完全 相同 。 











Val sc = new SparkContext ("local{[4]", "Test Spark App") 
下 载 示例 代码 
人 你 可 从 https:/www.packtpub.com 下 载 你 账号 购买 过 的 Packt 图 书 的 示例 代 


码 。 若 书 是 从 别处 购买 的 , 则 可 在 https://www.packtpub.com/books/content/support 
注册 ， 相 应 的 代码 会 直接 发 送 到 你 的 电子 邮箱 。 


1.3.2 SparkSession 


SparkSession 同时 支持 DataFrame 和 各 种 数据 集 API， 它 提供 了 一 个 统一 的 API 来 调用 
这 些 功 能 。 


首先 需要 创建 SparkConf 类 的 实例 , 然后 用 它 来 创建 SparkSession 实例 。 参考 如 下 示例 
代码 : 


val spConfig = (new SparkConf) .setMaster ("local") .setAppName ("SparkApp") 
val spark = SparkSession 
.builder() 
.appName ("SparkUserData") .config(spConfig) 
.getOrCreate () 


然后 ， 用 Spark 对 象 来 创建 一 个 DataFrame 对 象 : 


val user_df = spark.read.format ("com.databricks.spark.csv") 
.option("delimiter", "|").schema (customSchema) 
.load("/home/ubuntu/work/ml-resources/spark-ml/data/ml-100k/u.user") 
val first = user_df.first() 
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1.3.3 Spark shell 


Spark 支持 用 Scala、Python 或 RREPL (read-eval-print-loop， 交 互 式 shell ) 来 进行 交互 式 的 
程序 编写 。 由 于 输入 的 代码 会 被 立即 计算 , shell 能 在 输入 代码 时 提供 实时 反馈 。 在 Scala shell 中 ， 
命令 执行 结果 的 值 与 类 型 在 代码 执行 完 后 也 会 显示 出 来 。 


要 通过 Scala 来 使 用 Spark shell, 只 需 从 Spark 的 主 目录 执行 . /bin/spark-shell。 它 会 启 


动 Scala shell 并 初始 化 一 个 


象 。 

































































在 Spark 2.0 中 也 以 Spark 变量 的 形式 提供 了 一 个 Sparksession 实例 。 


述 命令 的 终端 输出 如 下 : 


$ ~/work/spark-2.0.0-bin-hadoop2.7/bin/spark-shell 


SparkContext 对 象 。 我 们 可 以 通过 sc 这 个 Scala 值 来 调 月 


有 这 个 对 





Using Spark's default log4j profile: org/apache/spark/log4jdefaults.properties 


Setting default log level to "WARN". 
To adjust logging level use sc.setLogLevel (newLevel). 


16/08/06 22:14:25 WARN NativeCodeLoader: Unable to load nativehadoop library for your 


platform... using builtin-java classes where applicable 


16/08/06 22:14:25 WARN Utils: Your hostname, ubuntu resolves to a 
loopback address: 127.0.1.1; using 192.168.22.180 instead (on 


interface ethl) 


16/08/06 22:14:25 WARN Utils: Set SPARK LOCAL IP if you need to 


bind to another address 


16/08/06 22:14:26 WARN Utils: Service 'SparkUI' could not bind on 


port 4040. Attempting port 4041. 


16/08/06 22:14:27 WARN SparkContext: Use an existing SparkContext, 


some configuration may not take effect. 
Spark context Web UI available at http://192.168.22.180:4041 


Spark context available as 'sc' (master = locall[*], app id = local- 


1470546866779). 
Spark session available as 'spark'. 
Welcome to 








version 2.0.0 





Using Scala version 2.11.8 (Java HotSpot (TM) 64-Bit Server VM, 
Java 1.7.0_60) 

Type in expressions to have them evaluated. 

Type :help for more information. 


scala> 


要 想 在 Python shell 中 使 用 Spark, 直接 运行 . /bin/pyspark 命令 即 可 。" 与 Scala shell 类 似 ， 























G@ 先 执行 :quit 退出 Spark shell， 再 启用 Pyspark。 一 一 译 者 注 
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Python 下 的 sparkContext 对 象 可 以 通过 Python 变量 sc 来 调用 。 上 述 命令 的 终端 输出 应 该 co 
如 下 : 


~/work/spark-2.0.0-bin-hadoop2.7/bin/pyspark 
Python 2.7.6 (default, Jun 22 2015, 17:58:13) [GCC 4.8.2] on linux2 
Type "help", "copyright", "credits" or "license" for more 
information. 
Using Spark's default log4j profile: org/apache/spark/log4jdefaults.properties 
Setting default log level to "WARN". 
To adjust logging level use sc.setLogLevel (newLevel). 
16/08/06 22:16:15 WARN NativeCodeLoader: Unable to load native hadoop 
library for yourplatform... using builtin-java classes where applicable 
16/08/06 22:16:15 WARN Utils: Your hostname, ubuntu resolves to a 
loopback address: 127.0.1.1; using 192.168.22.180 instead (on 
interface eth1) 
16/08/06 22:16:15 WARN Utils: Set SPARK LOCAL IP if you need to 
bind to another address 
16/08/06 22:16:16 WARN Utils: Service 'SparkUI' could not bind on 
port 4040. Attempting port 4041. 
Welcome to 








/ 
version 2.0.0 





/ 
/ 
/ 


We 





Using Python version 2.7.6 (default, Jun 22 2015 17:58:13) 
SparkSession available as 'spark'. 
>>> 


R 是 一 门 编程 语言 ， 并 提供 了 统计 计算 和 图 形 可 视 化 运行 时 环境 。 它 是 一 个 GNU 项 目 ， 是 
S 语 言 (由 贝尔 实验 室 开发 ) 的 一 种 不 同 实现 。 


R 提供 了 统计 (线性 和 非 线 性 建 模 、 经 典 统计 测试 、 时 序 分 析 、 分 类 和 聚 类 ) 以 及 可 视 化 支 
持 ， 有 着 极 强 的 可 扩展 性 。 


过 及 来 使 用 Spark， 执 行 如 下 命令 来 启用 Spark-R shell 即 可 : 


$ ~/work/spark-2.0.0-bin-hadoop2.7/bin/sparkR 

R version 3.0.2 (2013-09-25) -- "Frisbee Sailing" 

Copyright (C) 2013 The R Foundation for Statistical Computing 
Platform: x86 64-pc-linux-gnu (64-bit) 



































R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type 'license()' or 'licence()' for distribution details. 


Natural language support but running in an English locale 


R is a collaborative project with many contributors. 
Type 'contributors()' for more information and 
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'citation()' on how to cite R or R packages in publications. 


Type 'demo()' for some demos, 'help()' for on-line help, or 


'help.start()' 


for an HTML browser interface to help. 


Type 'q()' to quit R. 


Launching java with spark-submit command /home/ubuntu/work/spark- 
2.0.0-bin-hadoop2.7/bin/spark-submit "sparkr-shell" 
/tmp/RtmppzWD8S/backend porta6366144af4f 

Using Spark's default log4j profile: org/apache/spark/log4jdefaults.properties 

Setting default log level to "WARN". 

To adjust logging level use sc.setLogLevel (newLevel). 


16/08/06 22:26:22 


WARN NativeCodeLoader: Unable to load nativehadoop library for your 


platform... using builtin-java classes where applicable 


16/08/06 22:26:22 
loopback addres 
16/08/06 22:26:22 


WARN Utils: Your hostname, ubuntu resolves to a 
s: 127.0.1.1; using 192.168.22.186 instead (on interface eth1l) 
WARN Utils: Set SPARK LOCAL IP if you need to 


bind to another address 


16/08/06 22:26:22 


WARN Utils: Service '‘'SparkUI' could not bind on 


port 4040. Attempting port 4041. 


Welcome to 








version 2.0.0 





/_/ 
SparkSession avai 


lable as 'spark'. 


During startup - Warning message: 
package 'SparkR' was built under R version 3.1.1 


> 


1.3.4 ”弹性 分 布 式 数据 集 


弹性 分 布 式 数据 集 





(RDD ，resilient distributed dataset ) 是 Spark 的 核心 概念 。RDD 代表 一 系 








列 的 记录 (严格 来 说 是 某 种 类 型 的 对 象 )。 这 些 记录 被 分 配 或 分 区 到 集群 的 多 个 三 点 上 ( 在 本 地 


模式 下 ， 可 以 近似 地 理 角 


愉 为 单个 进程 中 的 多 个 线程 上 )。Spark 中 的 RDD 具有 容错 性 ， 即 当 某 个 











节点 或 任务 失败 时 〈 由 用 户 代码 错误 之 外 的 原因 引起 ， 如 硬件 故障 、 网 络 不 通 等 )，RDD 会 在 余 
下 的 节点 上 自动 重建 ， 以 便 最 终 完 成 任务 。 





1. 创建 RDD 





RDD 可 从 现 有 的 集合 创建 。 比 如 在 Scala Spark shell 中 : 


Xe eof 二 的 改作 计生 Me ol ME") 
val rddFromCollection = sc.parallelize(collection) 


RDD 也 可 以 基于 Hadoop 的 输入 源 创建 ， 比 如 本 地 文件 系统 、HDFS 和 Amazon S3。 基 于 
Hadoop 的 RDD 可 以 使 用 任何 实现 了 Hadoop InputFormat 接口 的 输入 格式 , 包括 文本 文件 、 其 
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他 Hadoop 标准 格式 、HBase 、Cassandra 和 Tachyon 等 。 
以 下 举例 说 明 如 何 用 一 个 本 地 文件 系统 里 的 文件 创建 RDD: 
val rddFromTextFile = sc.textFile("LICENSE") 


上 述 代 码 中 的 textFile 函数 (方法 ) 会 返回 一 个 RDD 对 象 。 该 对 象 的 每 一 条 记录 都 是 一 
个 表示 文本 文件 中 某 一 行文 字 的 string (字符 串 ) 对 象 。 该 段 代码 对 应 的 输出 如 下 : 


rddFromTextFile: org.apache.spark.rdd.RDD[String] = LICENSE 
MapPartitionsRDD[1] at textFile at <console>:24 


如 下 代码 演示 了 如 何 通 过 hafs:/ /协议 从 HDFS 中 的 一 个 文本 文件 创建 一 个 RDD: 











val rddFromTextFileHDFS = sc.textFile("hdfs://input/LICENSE ") 

如 下 代码 则 演示 了 如 何 通 过 s3n:/ /协议 从 Amazon S3 中 的 一 个 文本 文件 创建 一 个 RDD: 
val rddFromTextFileS3 = sc.textFile("s3n://input/LICENSE ") 

2. Spark 操作 


创建 RDD 后 ,我 们 便 有 了 一 个 可 供 操作 的 分 布 式 记录 集 。 在 Spark 编程 模型 下 ， 所 有 的 操 
作 被 分 为 转换 ( transformation ) 和 执行 ( action ) 两 种 。 一 般 来 说 ， 转 换 操 作 是 对 一 个 数据 集 里 
的 所 有 记录 执行 某 个 函数 ， 从 而 使 记录 发 生 改 变 ; 而 执行 通常 是 运行 某 些 计 算 或 聚合 操作 ,并 将 
结果 返回 运行 Sparkcontext 的 那个 驱动 程序 。 


Spark 的 操作 通常 采用 也 数 式 风格 。 对 于 那些 熟悉 用 Scala 、Python 或 Java 8 中 的 lambda 表 
达 式 进行 函数 式 编程 的 程序 员 来 说 , 这 应 不 难 掌握 。 若 你 没有 函数 式 编程 经 验 , 也 不 用 担心 , Spark 
API 其 实 很 容易 上 手 。 


Spark 程序 中 最 常用 的 一 种 转换 操作 便 是 map( 映射 )。 该 操作 对 RDD 里 的 每 一 条 记录 都 执 
行 某 个 函数 ， 从 而 将 输入 映射 为 新 的 输出 。 比 如 ， 下面 这 段 代码 便 对 一 个 从 本 地 文本 文件 创建 的 
RDD 进行 操作 。 它 对 该 RDD 中 的 每 一 条 记录 都 执行 size 函数 。 之 前 我 们 曾 创建 过 一 个 这 样 的 
由 若干 String 构成 的 RDD 对 象 。 通 过 map 函数 , 我 们 将 每 一 个 字符 串 都 转换 为 一 个 整数 ( Int )， 
从 而 返回 一 个 由 若干 Int 构成 的 RDD 对 象 。 
























































val intsFromStringsRDD = rddFromTextFile.map (line => line.size) 
其 输出 应 与 如 下 类 似 ， 其 中 也 提示 了 RDD 的 类 型 ; 


intsFromStringsRDD: org.apache.spark.rdd.RDDI[Int] = 
MapPartitionsRDD[2] at map at <console>:26 


示例 代码 中 的 => 是 Scala 下 表示 匿名 函数 的 语法 。 匿 名 函数 指 那些 没有 指定 函数 名 的 函数 ， 
比如 Scala 或 Python 中 用 aef 关键 字 定 义 的 函数 。 
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匿名 函数 的 具体 细节 并 不 在 本 书 讨论 范围 内 ， 但 由 于 它们 在 Scala、Python 
以 及 Java 8 中 大 量 使 用 (示例 或 现实 应 用 中 都 是 )， 列 举 一 些 实例 仍 会 有 帮助 。 
语法 line => line.size 表示 以 => 操 作 符 左边 的 部 分 作为 输入 ， 对 其 执 
行 一 个 函数 ， 并 以 => 操 作 符 右边 代码 的 执行 结果 为 输出 。 在 这 个 例子 中 ， 输 入 
种 为 line, 输出 则 是 1ine.size 函数 的 执行 结果 。 在 Scala 语 言 中 ,这 种 将 一 个 
String 对 和 象 映射 为 一 个 Int 的 函数 被 表示 为 SETNG, = THNE:s 
该 语法 使 得 每 次 使 用 如 map 这 种 方法 时 ，, 都 不 需要 另外 单独 定义 一 个 函数 。 
当 函 数 简单 且 只 需 使 用 一 次 时 ( 像 本 例 一 样 时 )， 这 种 方式 很 有 用 。 


现在 我 们 可 以 调用 一 个 常见 的 执行 操作 count ， 来 返回 RDD 中 的 记录 数目 : 


intsFromStringsRDD.count 























执行 的 结果 应 该 如 下 : 
res0: Long = 299 


如 果 要 计算 这 个 文本 文件 里 每 行 字符 串 的 平均 长 度 ， 可 以 先 使 用 sum 函数 对 所 有 记录 的 长 
度 求 和 ， 然 后 再 除 以 总 的 记录 数目 : 








val sumOfRecords = intsFromStringsRDD.sum 


val numRecords = intsFromStringsRDD.count 
val aveLengthOfRecord = sumOfRecords / numRecords 
结果 应 该 如 下 : 


scala> intsFromStringsRDD.count 
res0: Long = 299 


scala> val sumOfRecords = intsFromStringsRDD.sum 
sumOfRecords: Double = 17512.0 


scala> val numRecords = intsFromStringsRDD.count 
numRecords: Long = 299 


scala> val aveLengthOfRecord = sumOfRecords / numRecords 
aveLengthOfRecord: Double = 58.5685618729097 


在 多 数 情况 下 ，Spark 的 操作 都 会 返回 一 个 新 RDD, 但 多 数 的 执行 操作 则 是 返回 计算 的 结 
(比如 上 面 例子 中 ，count 返回 一 个 Long，sum 返回 一 个 Double )。 这 就 意味 着 多 个 操作 可 以 
很 自然 地 前 后 链接 ， 从 而 让 代码 更 为 简洁 明了 。 举例 来 说 ， 用 下 面 的 一 行 代码 可 以 得 到 和 上 面 例 
子 相 同 的 结 











val aveLengthOfRecordChained = rddFromTextFile 
.map (line => line.size) .sum / rddFromTextFile.count 


值得 注意 的 一 点 是 ，Spark 中 的 转换 操作 是 延 后 的 。 也 就 是 说 , 在 RDD 上 调用 一 个 转换 操作 
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并 不 会 立即 触发 相应 的 计算 。 相 反 ,， 这 些 转换 操作 会 链接 起 来 ,并 只 在 有 执行 操作 被 调用 时 才 被 
高 效 地 计算 。 这 样 ， 大 部 分 操作 可 以 在 集群 上 并 行 执行 ， 只 有 必要 时 才 计 算 结 果 并 将 其 返回 给 驱 
动 程序 ， 从 而 提高 了 Spark 的 效率 。 


这 就 意味 着 ， 如 果 我 们 的 Spark 程序 从 未 调用 一 个 执行 操作 ， 就 不 会 触发 实际 的 计算 ， 也 不 
会 得 到 任何 结果 。 比 如 下 面 的 代码 就 只 返回 一 个 表示 一 系列 转换 操作 的 新 RDD: 


val transformedRDD = rddFromTextrFile 
.map (line => line.size) .filter(size => size > 10) .map(size => size * 2) 


相应 的 终端 输出 如 下 : 


transformedRDD: org.apache.spark.rdd.RDDI[Int] = 
MappedRDD[6] at map at <console>:26 





























注意 ， 这 里 实际 上 没有 触发 任何 计算 ,也 没有 结果 被 返回 。 如 果 我 们 现在 在 新 的 RDD 上 调 
用 一 个 执行 操作 ， 比 如 sum， 该 计算 将 会 被 触发 : 


val computation = transformedqRDD .sum 
现在 你 可 以 看 到 一 个 Spark 任务 被 启动 ， 并 返回 如 下 终端 输出 : 
computation: Double = 35006.0 


RDD 支持 的 转换 和 执行 操作 的 完整 列表 以 及 更 为 详细 的 例子 ， 参见 Spark 
编程 指南 ( http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations ) 以 
及 Spark API( Scala ) 文 档 (http://spark.apache.org/docs/latest/api/scala/index.html# 
org.apache.spark.rdd.RDD ), 


3. RDD 缓存 策略 


Spark 最 为 强大 的 功能 之 一 便 是 能 够 把 数据 缓存 在 集群 的 内 存 里 ,这 通过 调用 RDD 的 cache 
函数 来 实现 : 
rddFromTextFile.cache 


res0: rddFromTextFile.type = MapPartitionsRDD[1] at textFile at 
<console>:27 


I 用 一 个 RDD 的 cache 函数 将 会 告诉 Spark 将 这 个 RDD 缓存 在 内 存 中 。 在 RDD 首次 调用 

一 个 执行 操作 时 , 这 个 操作 对 应 的 计算 会 立即 执行 , 数据 会 从 数据 源 里 读 出 并 保存 到 内 存 。 因此， 
首次 调用 cache 函数 所 需要 的 时 间 ， 部 分 取决 于 Spark 从 输入 源 读 取 数据 所 需要 的 时 间 。 但 是 ， 
当下 一 次 访问 该 数据 集 的 时 候 ( 比如 在 后 续 分 析 中 进行 查询 时 , 以 及 机 器 学 习 模 型 中 的 迭代 时 )， 
数据 可 以 直接 从 内 存 中 读 出 ， 从 而 减少 低 效 的 IO 操作 ， 加 快 计算 。 多 数 情况 下 ， 这 会 取得 数 倍 
的 速度 提升 。 


当 再 在 上 述 已 缓存 了 的 RDD 上 调用 count 或 sum 函数 时 ， 该 RDD 已 载 和 内存: 

















汪 
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val aveLengthOfRecordChained = rddFromTextFile 
.map (line => line.size) .sum / rddFromTextFile.count 


Spark 支持 更 为 细 化 的 缓存 策略 。 通 过 persist 函数 可 以 指定 Spark 的 数据 
人 缓存 策略 。 关 于 RDD 缓存 的 更 多 信息 可 参见 : http://spark.apache.org/docs/latest/ 
programming-guide.html#rdd-persistence。 


1.3.5 ”广播 变量 和 累加 器 


Spark 的 另 一 个 核心 功能 是 能 创建 两 种 特殊 类 型 的 变量 : 广播 变量 和 累加 器 。 


广播 变量 (broadcast variable ) 为 只 读 变量 ， 它 由 运行 SparkContext 的 驱动 程序 创建 后 ， 
发 送 给 会 参与 计算 的 节点 。 对 那些 需要 让 各 工作 节点 高 效 地 访问 相同 数据 的 应 用 场景 ， 比 如 分 布 
式 系 统 ， 这 非常 有 用 。 Spark 下 创建 广播 变量 只 需 在 sparkcontext 上 调用 一 个 方法 即 可 : 





























Val broadeast AList = Se broadeast (List{(M a vB Me Ve ME")) 


广播 变量 也 可 以 被 非 驱动 程序 所 在 的 节点 ( 即 工作 节点 ) 访问 , 访问 的 方法 是 调用 该 变量 的 
value 方法 : 

sc.parallelize(List("1", "2", "3")) .map(x => broadcastAList.value ++ XxX) .collect 

这 段 代 码 会 从 {"1"， "2"，"3"} 这 个 集合 (一 个 Scala List ) 里 ,新 建 一 个 带 有 3 条 记录 
的 RDD。map 函数 里 的 代码 会 返回 一 个 新 的 List 对 象 。 这 个 对 象 里 的 记录 由 之 前 创建 的 那个 
broadcastAList 里 的 记录 与 新 建 的 RDD 里 的 3 条 记录 分 别 拼接 而 成 。 











resl: Array[List[Any]] = Array(List(a, b, c, d, e, 1), Listl(a, b, 
Cc, d, e, 2), List(a, b, c, d, e, 3)) 


注意 ， 上 述 代 码 使 用 了 collect 函数 。 这 是 一 个 Spark 执行 函数 ， 它 将 整个 RDD 以 Scala 
(或 Python 或 Java ) 集合 的 形式 返回 驱动 程序 。 


通常 只 在 需 将 结果 返回 到 驱动 程序 所 在 节点 以 供 本 地 处 理 时 ， 才 调用 collect 哨 数 。 

















注意 , 一般 仅 在 的 确 需 要 将 整个 结果 集 返 回 驱 动 程序 并 进行 后 续 处 理 时 , 才 
有 必要 调用 collect 函数 。 如 果 在 一 个 非常 大 的 数据 集 上 调用 该 函数 ， 可 能 耗 
尽 驱动 程序 的 可 用 内 存 ， 进 而 导致 程序 前 溃 。 
0 高 负荷 的 处 理应 尽 可 能 地 在 整个 集群 上 进行 ,从 而 避免 驱动 程序 成 为 系统 瓶 
颈 。 然 而 在 不 少 情况 下 , 将 结果 收集 到 驱动 程序 的 确 是 有 必要 的 。 很 多 机 器 学 习 
算法 的 迭代 过 程 便 属于 这 类 情况 。 


从 上 述 结果 可 以 看 出 ， 新 生成 的 RDD 里 包含 3 条 记录 ， 其 中 每 一 条 记录 包含 一 个 由 原来 被 
广播 的 List 变量 附加 一 个 新 的 元 素 所 构成 的 新 记录 ( 也 就 是 说 , 新 记录 分 别 以 1、2、3 结尾 )。 
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累加 器 (accumulator ) 也 是 一 种 被 广播 到 工作 节点 的 变量 。 累 加 器 与 广播 变量 的 关键 不 同 是 
后 者 只 能 读 取 而 前 者 却 可 累加 。 但 支持 的 累加 操作 有 一 定 的 限制 。 具 体 来 说 ， 这 种 累加 必须 是 一 
种 有 关联 的 操作 ， 即 它 得 能 保证 在 全 局 范围 内 累加 起 来 的 值 能 被 正确 地 并 行 计算 并 返回 驱动 程 
序 。 每 一 个 工作 节点 只 能 访问 和 操作 其 自己 本 地 的 累加 器 ， 全 局 累加 器 则 只 允许 驱动 程序 访问 。 
累加 器 同样 可 以 在 Spark 代码 中 通过 value 访问 。 






































关于 广播 变量 和 累加 器 的 更 多 信息 ， 可 参见 Spark 编程 指南 : http://spark. 
apache.org/docs/latest/rdd-programming-guide.html#shared-variables。 


1.4 SchemaRDD 


SchemaRDD 结合 了 RDD 和 结构 ( schema ) 信息 。 它 提供 了 丰富 且 易 于 使 用 的 API 接 口 ， 即 
DataSet API。2.0 版 本 中 并 没 采 用 SchemaRDD , 但 DataFrame 和 Dataset 的 API 内 部 都 用 到 
了 它 。 

结构 用 来 描述 数据 在 逻辑 上 是 如 何 组 织 的 。 在 获取 该 信息 后 , SQL 引擎 便 可 支持 对 相应 的 数 
据 进行 结构 化 查询 。Dataset API 替 代 了 原 Spark SQL Parser 的 功能 。 它 保存 了 原始 程序 逻辑 树 。 
后 续 的 处 理 则 重用 了 Spark SQL 的 核心 逻辑 。 可 以 说 ，Dataset API 实 现 了 和 相应 SQL 查询 完 
全 等 同 的 处 理 功 能 。 


SchemaRDD 是 RDD 的 一 个 子 类 。 当 程序 调用 Dataset API 时, 一 个 新 的 SchemaRDD 对 象 
便 会 被 创建 。 同 时, 通过 在 原始 逻辑 布局 树 上 增加 新 的 逻辑 操作 节点 ， 该 对 象 也 生成 了 自己 的 逻 
辑 布 局 属性 。 和 RDD 一 样 ，Dataset API 也 支持 两 种 操作 : 转换 和 执行 。 


与 关系 操作 相关 的 API 属于 转换 类 。 


那些 会 生成 输出 数据 的 操作 属于 执行 类 。 另 外 ， 仅 当 调 用 了 一 个 执行 类 操作 时 ， 一 个 Spark 
任务 才 会 被 触发 并 分 发 到 集群 上 执行 ， 这 和 RDD 一 样 。 
































1.5 Spark data frame 








在 Apache Spark 中 ， 每 个 Dataset 对 象 对 应 一 个 分 布 式 数 据 集 。Dataset 是 自 Spark 1.6 
版 起 添加 的 新 接口 ， 它 提供 了 和 Spark SQL 执行 引擎 同等 的 功能 。 该 类 对 象 可 从 JVM 对 象 创建 
然后 便 可 通过 功能 式 转换 ( 如 map、flatMap、filter 等 ) 进行 各 种 操作 。Dataset API 仅 文 
持 Scala 和 Java 语 言 ， 不 支持 Python 和 R。 


一 个 DataFrame 对 象 对 应 一 个 带 列 名 的 数据 集 。 它 等 同 于 关系 型 数据 库 中 的 表 或 R/Python 
中 的 data frame 对 象 ， 但 优化 更 多 。DataFrame 可 从 结构 型 数据 文件 、Hive 的 表格 、 外 部 数据 
库 或 现 有 的 RDD 创建 。 其 API 支持 覆盖 Scala 、Python 、Java 和 有。 
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要 生成 DataFrame 类 对 象 ， 需 要 首先 初始 化 SparkSession: 

















import org.apache.spark.sql.SparkSession 
val spark = SparkSession.builder() 
.appName ("Spark SQL") .config("spark.some.config.option", "") 
.getOrCreate() import spark.implicits._ 


之 后 ， 借 助 spark .read.json 国 数 从 一 个 JSON 文件 来 创建 该 类 对 象 : 





en 





scala> val df = spark.read.json("/home/ubuntu/work/ml-resources 
/spark-ml/Chapter_01/data/example_one.json") 


注意 ， 需 要 使 用 Spalk Implicits 类 来 隐 式 地 将 RDD 转换 为 DataFrame 类 型 : 








org.apache.spark.sql 

Class SparkSession.implicitss 

Object org.apache.spark.sql.SQLImplicits 
Enclosing class: SparkSession 


Scala 提供 了 这 些 隐 式 函数 来 将 常见 的 Scala 对 象 转换 为 DataFrame 类 对 象 。 
述 命令 的 输出 应 与 如 下 类 似 : 


df: org.apache.spark.sql.DataFrame = [address: structxcity: 
string, state: string>, name: string] 











现在 ， 可 通过 df . show 命令 来 显示 其 在 DataFrame 中 的 详细 信息 : 








scala> df .show 


+----------------- +------- + 
| address | name | 
+----------------- +------- + 
| [Columbus,Ohio]| Yinl 
| [null,Californial] |Michael | 
+----------------- +------- 十 


1.6 ”Spark Scala 编程 入 门 


下 面 我 们 用 上 一 节 所 提 到 的 内 容 来 编写 一 个 简单 的 Spark 数据 处 理 程序 。 该 程序 将 依次 用 
Scala、Java 和 Python 这 3 种 语言 来 编写 。 所 用 数据 是 用 户 在 在 线 商 店 的 商品 购买 记录 。 该 数据 
存在 一 个 逗号 分 隔 值 (CSV，comma-separated-value ) 文件 中 ， 名 为 UserPurchaseHistory.csv， 该 
文件 存在 随 书 代码 包 的 data 目录 下 。 


其 部 分 内 容 如 下 所 示 。 文 件 的 每 一 行 对 应 一 条 购买 记录 ， 从 左 到 右 的 各 列 值 依次 为 用 户 名 、 
商品 名 称 以 及 商品 价格 。 
John,iPhone Cover,9.99 


John,Headphones,5.49 
Jack,iPhone Cover,9.99 
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Jill,Samsung Galaxy Cover,8.95 we 
Bob, ipad Cover,5.49 
对 于 Scala 程序 而 言 , 需要 创建 两 个 文件 Scala 代码 文件 以 及 项 目的 构建 配置 文件 。 项 目 将 
使 用 Scala 构建 工具 ( SBT，Scala build tool ) 来 构建 。 为 便于 理解 ， 建 议 读者 下 载 示例 代码 
scala-spark-app。 该 资源 里 的 data 目录 下 包含 了 上 述 CSV 文件 。 运行 这 个 示例 项 目 需 要 系统 中 已 
经 安装 好 SBT ( 编写 本 书 时 所 使 用 的 版 本 为 0.13.8 )。 


配置 SBT 并 不 在 本 书 讨论 范围 内 ， 但 读者 可 以 从 https://www.scala-sbt.org/ 
release/docs/Setup.html 找到 更 多 信息 。 















































我 们 的 SBT 配置 文件 是 build.sbt， 其 内 容 如 下 面 所 示 ( 注意 ,各行 代码 之 间 的 空 行 是 必需 的 ): 





name := "scala-spark-app" 
VEFSLON SE 10 
scalaVersion := "2.11.7" 


libraryDependencies += "org.apache.spark" %% 


最 后 一 行 代码 将 Spark 添加 到 本 项 目的 依赖 库 。 


"spark-core" 和 "2.0.0 " 





相应 的 Scala 程序 在 ScalaApp.scala 这 个 文件 里 。 接 下 来 我 们 会 逐一 讲解 代码 的 各 个 部 分 。 
首先 ， 导 入 所 需要 的 Spark 类 


Import org.apache.spark.SparkContext 
import org.apache.spark.SparkContext. 


/** 


* 用 Scala 编写 的 一 个 简单 的 Spark 应 用 
*/ 
object ScalaApp { 


在 主 函 数 里 ， 我 们 要 初始 化 所 需 的 sparkcontext 对 象 ， 并 且 用 它 通 过 textFile 函数 来 
访问 CSV 数据 文件 。 之 后 以 逗号 为 分 隔 符 分 割 每 一 行 原始 字符 串 ， 提 取出 相应 的 用 户 名 、 产 品 
和 价格 信息 ， 从 而 完成 对 原始 文本 的 映射 : 


def main(args: Array[String]) { 
val sc = new SparkContext ("local[2]", "First Spark App") 
// 将 CSV 格式 的 原始 数据 转化 为 (user,product,price) 格 式 的 记录 集 
val data = sc.textFile("data/UserPurchaseHistory.csv") 
.map (line => line.split(",")) 
.map (purchaseRecord => (purchaseRecord(0) 


,， purchaseRecord(1), 
purchaseRecord (2))) 


现在 ,我 们 有 了 一 个 RDD， 其 每 条 记录 都 由 (user，product，price) 三 个 字段 构成 。 我 
们 可 以 对 商店 计算 如 下 指标 : 
口 购买 总 次 数 
口 有 购买 行为 的 用 户 总 数 
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口 总 收入 

口 最 畅销 的 产品 
计算 方法 如 下 : 
// 求购 买 总 次 数 


val numPurchases = data.count() 


// 求 有 多 少 个 不 同 用 户 购买 过 商品 





val uniqueUsers = data.map{ case (user, product, price) => user 


Fadistinct() count'(y) 
// 求 和 得 出 总 收入 


val totalRevenue = data.map{ case (user, product, price) => 


price.toDouble }.sum() 
// 求 最 畅销 的 产品 是 什么 
val productsByPopularity = data 
.map{ case (user, product, price) => (product, 1) } 
.reduceByKey(, +_) 
.Collect () 
.SortBy (-_._2) 
val mostPopular = productsByPopularity(0) 




















最 后 那 段 计 算 最 畅销 产品 的 代码 演示 了 如 何 进行 Map/Reduce 模式 的 计算 , 该 模式 随 人 
而 流行 。 首 先 ， 我 们 将 (user，product，price) 格 式 的 记录 映射 为 (product，1) 格 式 。 然 
后 ,执行 一 个 reduceByKey 操作 ， 它 会 对 各 个 产品 的 1 值 进行 求 和 。 


转换 后 的 RDD 包含 各 个 商品 的 购买 次 数 。 有 了 这 个 RDD 后 , 我 们 可 以 调用 collect 函数 ， 
它 会 将 其 计算 结果 以 本 地 Scala 集合 的 形式 返回 驱动 程序 。 之 后 ， 在 驱动 程序 的 本 地 对 这 些 记录 






































按照 购买 次 数 进行 排序 。( 注意 ， 在 实际 处 理 大 量 数 据 时 ， 我 们 通常 通过 


来 进行 并 行 排序 。) 
可 在 终端 上 打印 出 计算 结果 : 





println("Total purchases: " + numPurchases) 
printlin("Unique users: " + uniqueUsers) 
println("Total revenue: " + totalRevenue) 


println("Most popular product: %s with %d purchases" 
.format (mostPopular._1, mostPopular._2)) 
} 
} 











可 以 在 项 目的 主 目录 下 执行 sbt run 命令 来 运行 这 个 程序 。 如 
以 从 Scala IDE 直接 运行 。 最 终 的 输出 应 该 与 下 面 的 内 容 相 似 : 





[info] Compiling 1 Scala source to ... 
[info] Running ScalaApp 


Total purchases: 5 
Unique users: 4 


四 
Ai 





sortByKey 这 类 操作 


你 使 用 了 IDE 的 话 ， 也 可 
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Total revenue: 39.91 
Most popular product: iPhone Cover with 2 purchases 


可 以 看 到 , 商店 总 共有 4 个 用 户 的 5 次 交易 , 总 收入 为 39.91。 最 畅销 的 商品 是 iPhone Cover， 
共 购 买 2 次 。 


1.7 ”Spark Java 编程 入 门 


Java API 与 Scala API 本 质 上 很 相似 。Scala 代码 可 以 很 方便 地 调用 Java 代 码 ， 但 某 些 Scala 代码 
却 无 法 在 Java 里 调用 , 特别 是 那些 使 用 了 隐 式 类 型 转换 、 默 认 参 数 和 某 些 Scala 反射 机 制 的 代码 。 


一 般 来 说 ， 这 些 特 性 在 Scala 程序 中 会 被 广泛 使 用 。 这 就 有 必要 另外 为 那些 常见 的 类 编写 相 
应 的 Java 版 本 。 由 此 ，Sparkcontext 有 了 对 应 的 Java 版 本 Javasparkcontext， 而 RDD 则 
对 应 JavaRDD。 


Java 8 及 之 前 版 本 的 Java 并 不 支持 匿名 函数 , 在 函数 式 编程 上 也 没有 严格 的 语法 规范 。 于 是 ， 
套用 到 Spark 的 Java API 上 的 函数 必须 要 实现 一 个 带 有 call 函数 签名 的 WrappeqFunction 接 
口 。 这 会 使 得 代码 元 长 ， 所 以 我 们 经 常会 创建 临时 匿名 类 来 传递 给 Spark 操作 。 这 些 类 会 实现 操 
作 所 需 的 接口 以 及 call 图 数 ， 以 取得 和 用 Scala 编写 时 相同 的 效果 。 

Spark 提供 对 Java 8 匿名 函数 (或 lambda ) 语法 的 支持 。 使 用 该 语法 能 让 Java 8 书写 的 代码 
看 上 去 很 像 等 效 的 Scala 版 。 

用 Scala 编写 时 ， 键 值 对 记录 的 RDD 能 支持 一 些 特别 的 操作 ( 比如 reduceByKey 和 
saveAsSequenceFile )。 这 些 操作 可 以 通过 隐 式 类 型 转换 而 自动 被 调用 。 用 Java 编写 时 ， 则 需 
要 特殊 类 型 的 JavaRDD 类 来 支持 这 些 操作 。 这 包括 用 于 键 值 对 的 vavaPairRDD, 以 及 用 于 数值 
记录 的 JavaDoubleRDD。 


































































































本 节 只 涉及 标准 的 JavaAPI 语 法 。 关 于 Java 下 支持 的 RDD 以 及 Java 81lambda 
表达 式 支 持 的 更 多 信息 ， 可 参见 Spark 编程 指南 : http://spark.apache.org/ 
docs/latest/programming-guide.html#rdd-operations。 

在 后 面 的 Java 程序 中 ， 我 们 可 以 看 到 大 部 分 差异 。 这 些 示例 代码 包含 在 本 章 示 例 代码 的 
java-spark-app 目录 下 。 该 目录 的 data 子 文件 夹 下 也 包含 上 述 CSV 数据 。 


这 里 会 使 用 Maven 构建 工具 来 编译 和 运行 这 个 项 目 。 我 们 假设 读者 已 经 在 其 系统 上 安装 好 
了 该 工具 。 














Maven 的 安装 和 配置 并 不 在 本 书 讨 论 范围 内 ,通常 它 可 通过 Linux 系统 中 的 
人 包 管 理 器 或 Mac OS X 中 的 HomeBrew 或 MacPorts 方便 地 安装 。 
详细 的 安装 指南 参见 : http://maven.apache.org/download.cgi。 
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项 目 中 包含 一 个 名 为 JavaApp.java 的 Java 源 文件 : 


import org.apache.spark.api.java.JavaRDD; 

import org.apache.spark.api.java.JavaSparkContext; 
import scala.Tuple2; 

import java.util.*,; 

import java.util.steam.Collectors; 


/** 
* 用 Java 编写 的 一 个 简单 的 Spark 应 用 
和 
public class JavaApp { 
public static void main(String[] args) { 


正如 在 Scala 项 目 中 一 样 ， 我 们 首先 需要 初始 化 一 个 上 下 文 对 象 。 值 得 注意 的 是 ， 这 里 所 使 用 
的 是 JavaSparkContext 类 而 不 是 之 前 的 SparkContext。 类 似 地 , 我 们 调用 JavaSparkContext 
对 象 , 利用 textFile 函数 来 访问 数据 ,然后 将 各 行 输入 分 割 成 多 个 字段 。 请 注意 下 面 代码 的 加 
粗 部 分 是 如 何 使 用 匿名 类 来 定义 一 个 分 割 函 数 的 。 该 函数 确定 了 如 何 对 各 行 字 符 


JavaSparkContext sc = new JavaSparkContext ("local[2]", 

"First Spark App"); 
// 以 CSV 格式 读 取 原 始 数 据 ， 并 将 其 转化 为 (user,produce,price) 格 式 的 记录 集 
JavaRDD<String[]> data = 
sc.textFile("data/UserPurchaseHistory.csv") .map(s -> s.split(",")); 


现在 可 以 算 一 下 用 Scala 时 计算 过 的 指标 。 这 里 有 两 点 值得 注意 : 一 是 下 面 Java API 中 有 些 
函数 (比如 aistinct 和 count ) 实际 上 和 在 Scala API 中 一 样 ， 二 是 我 们 定义 了 一 个 匿名 类 并 
将 其 传 给 map 函数 。 匿 名 类 的 定义 方式 可 参见 代码 的 加 粗 部 分 。 


// 求购 买 总 次 数 
long numPurchases = qata.count () ; 
// 求 有 多 少 个 不 同 用 户 购买 过 商品 
long uniqueUsers = data.map(strings ->strings[0]) .distinct().count(); 
// 求 和 得 出 总 收入 
Double totalRevenue = data.mapl( 
strings -> Double.parseDouble(strings[2])) 
.reduce( (Double vi, Double v2) -> 
new Double(vl.doubleValue() + v2.doubleValue())); 


下 面 的 代码 展现 了 如 何 求 出 最 畅销 的 产品 ， 其 步骤 与 Scala 示例 的 相同 。 多 出 的 那些 代码 看 
似 复 杂 ， 但 它们 大 多 与 Java 中 创建 匿名 函数 有 关 ， 实 际 功能 与 用 Scala 时 一 样 。 


// 求 最 畅销 的 产品 是 什么 

List < Tuple2 < String, Integer >> pairs = data.mapToPair(strings - > 
new Tuple2 < String, Integer > (strings[1], 1)) 
.reduceByKey ((Integer il, Integer i2) - > 11 + i2) 
‘GOLlLeéct(); 





















































































































































HH ZX 一 


进行 分 割 。 

















UU 












































TT 








Map < String, Integer > sortedData = new HashMap < > (); 
Iterator it = pairs.iterator(); 
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while (it.hasNext()) { 
Tuple2 < String, JInteger > O = (Tuple2 < String, Integer > ) it.next(); 
sortedData.put(o._1, o..2); 





} 
List < String > sorted = sortedData.entrySet() 

.Stream() 

.SOLTLed ( 

Comparator .comparing( 
(Map.Entry < String, Integer > entry) - > 

entry.getValue()).reversed!()) 

.map (Map .Entry::getKey) 

.Collect (Collectors.toList ()); 
String mostPopular = sorted.get (0); 
int purchases = sortedData.get (mostPopular); 


System.out .println("Total purchases: " + numPpurchases); 
System.out .println("Unique users: " + uniqueUsers); 
System.out .println("Total revenue: " + totalRevenue); 





System.out .println(String.formatl( 
"Most popular product: % s with %$ d purchases " 
mostPopular, purchases)); 
} 
} 


从 前 面 的 代码 可 以 看 出 ，Java 代码 和 Scala 代码 相 比 虽然 多 了 通过 匿名 内 部 类 来 声明 变量 和 
函数 的 样板 代码 , 但 两 者 的 基本 结构 类 似 。 读 者 不 妨 分 别 练 习 这 两 种 版 本 的 代码 ,并 比较 一 下 计 
算 同 一 个 指标 时 两 种 语言 在 表达 上 的 异同 。 


该 程序 可 以 通过 在 项 目 主 目录 下 执行 如 下 命令 运行 : 












































$ mvn exec:java -Dexec.mainClass="JavaApp" 


可 以 看 到 其 输出 和 Scala 版 的 很 类 似 ， 而 且 计算 结果 完全 一 样 : 











14/01/30 17:02:43 INFO spark.SparkContext: Job finished: collect at 
JavaApp.java:46, took 0.039167 s 

Total purchases: 5 

Unique users: 4 

Total revenue: 39.91 

Most popular product: iPhone Cover with 2 purchases 


1.8 ”Spark Python 编程 入 门 


Spark 的 Python API 几 乎 覆盖 了 Scala API 所 能 提供 的 全 部 功能 , 但 有 些 特性 暂 不 支持 ,比如 
GraphX 的 图 处 理 和 其 他 组 件 中 的 某 些 功能 。 具 体 可 参见 Spark 编程 指南 的 Python 部 分 : 
http://spark.apache.org/docs/latest/rdd-programming-guide.html。 


PySpark 基于 Spark 的 Java API 来 构建 。 数 据 通过 原生 Python 来 处 理 并 在 JVM 上 实现 缓存 
(cache ) 和 移动 (shuffle )。Python 驱动 程序 的 Sparkcontext 通过 Py4J 来 启动 一 个 JVM 并 创 
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建 一 个 JavaSparkContext 对 象 。 该 程序 通过 Py4J 来 实现 Python 和 Java SparkContext 对 象 
之 间 的 本 地 通信 。 用 Python 所 编写 的 RDD 转换 操作 会 被 映射 为 相应 Java 版 的 PythonRDD 对 象 
的 转换 操作 。PythonRDD 对 象 启用 远程 工作 节点 上 的 Python 子 进程 ， 并 通过 管道 (pipe ) 与 其 
通信 。 这 些 子 进程 则 负责 发 送 用 户 代 码 和 数据 的 处 理 。 

与 上 两 节 类 似 ， 这 里 将 编写 一 个 相同 功能 的 Python 版 程序 。 我 们 假设 读者 系统 中 已 安装 2.6 
或 更 高 版 本 的 Python ( 多 数 Linux 系统 和 Mac OS 义 已 预 装 Python )。 

如 下 示例 代码 可 以 在 本 章 代 码 的 python-spark-app 目录 下 找到 。 相 应 的 CSV 数据 文件 也 在 该 
目录 的 data 子 目录 中 。 项 目 代 码 在 一 个 名 为 pythonapp.py 的 脚本 里 ， 其 内 容 如 下 : 


Im 用 Python 编写 的 一 个 简单 Spark 应 用 Cm 
from pyspark import SparkContext 


























sc = SparkContext ("local[2]", "First Spark App") 
# 将 CSV 格式 的 原始 数据 转化 为 (user,product,price) 格 式 的 记录 集 


data = sc.textFile("data/UserPurchaseHistory.csv") .map(lambda line: 


line.split(",")) .map(lambda record: (record[0], record[1], record[2])) 
# 求购 买 总 次 数 
numPurchases = data.count() 


# 求 有 多 少 不 同 用 户 购买 过 商品 

uniqueUsers = data.map (lambda record: frecord[0]).dqistinct().count () 

# 求 和 得 出 总 收入 

totalRevenue = data.map(lambda record: float (record[2])).sum() 

# 求 最 畅销 的 产品 是 什么 

products = data.map(lambda record: (record[1], 1.0)). 
reduceByKey(lambda a, b: a + b).collect() 

mostPopular = sorted(products, key=lambda x: x[1], reverse=True){[0] 
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print "Total purchases: %d" % numPurchases 

print "Unique users: %d" %$ uniqueUsers 

print "Total revenue: %2.2f" % totalRevenue 

print "Most popular product: %s with %d purchases" %$ (mostPopular{[0], mostPopular[1] 


对 比 Scala 版 和 Python 版 代码 , 不 难 发 现 Java 版 语法 大 致 相同 。 主要 不 同 在 于 匿名 函数 的 表 
达 方式 上 ,匿名 函数 在 Python 语言 中 亦 称 lambda 函数 ,lambda 也 是 语法 表达 上 的 关键 字 。 用 Scala 
编写 时 ， 一 个 将 输入 x 映射 为 输出 y 的 匿名 函数 表示 为 x => y， 在 Python 中 则 是 lambda x : 
ys。 在 上 面 代 码 的 加 粗 部 分 ,我 们 定义 了 一 个 将 两 个 输入 a 和 ob 映射 为 一 个 输出 的 匿名 函数 。 这 
两 个 输入 的 类 型 一 般 相 同 ， 这 里 调用 的 是 相 加 水 数 ， 政 写成 lambda a，b : a + bo。 


运行 该 脚本 的 最 好 方法 是 在 脚本 目录 下 运行 如 下 命令 : 
$ SPARK HOME/bin/spark-submit pythonapp.py 


上 述 代码 中 的 SPARK_HOME 变量 应 该 替换 为 读者 实际 的 Spark 的 主 目录 , 也 就 是 在 本 章 开始 
Spark 预 编译 包 解 压 生 成 的 那个 日 录 。 


脚本 运行 完 的 输出 应 该 和 运行 Scala 和 Java 版 时 的 类 似 ， 其 结果 同样 也 是 : 
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14/01/30 11:43:47 INEO SparkContext : Job finished: collect at 
Pythonapp .py:14，took 0.050251 s 

Total Purchases: 5 

Unique users: 4 

Total revenue: 39.91 

Most popular product: iPhone Cover with 2 purchases 


1.9 Spark R 编程 入 门 


SparkR 是 一 个 R 包 , 它 提 供 从 及 代码 中 调用 Apache Spark 的 和 人口 。 在 Spark 1.6.0 版 中 ,SparkR. 
提供 了 针对 大 数据 集 的 分 布 式 数据 框架 。SparkR 还 能 通过 MLlib 来 支持 分 布 式 机 器 学 习 ， 建 议 
读者 在 后 续 机 器 学 习 章节 中 动手 实践 一 下 。 









































SparkR DataFrame 

DataFrame 指 按 已 命名 的 列 来 存储 的 分 布 式 数据 的 集合 。 这 个 概念 十 分 类 似 于 关系 型 数据 
库 或 是 R 中 的 数据 框 ， 但 它 经 过 更 多 优化 。 数 据 框 的 数据 源 可 以 是 CSV、TSV 、Hive 表格 或 是 
本 地 R 的 数据 框 等 。 

Spark 对 应 的 交互 环境 可 由 如 下 命令 启用 : ./bin/sparkR shell。 


同样 ,我 们 用 及 来 实现 上 述 指标 示例 。 这 里 假设 读者 系统 中 已 安装 了 和 及 Studio， 对 应 版 本 
为 3.0.2 (2013-09-25)-Frisbee Sailing 或 以 上 。 


示例 代码 可 以 在 本 章 代码 的 rspark-app 目录 下 找到 ， 对 应 的 CSV 数据 文件 则 在 data 子 目录 


中 。 示 例 代码 还 包括 一 个 名 为 rscript-01.R 的 脚本 文件 ,其 内 容 如 下 。 读 者 需 将 下 面 代 码 中 的 PATH 
变量 改 为 自己 开发 环境 里 对 应 的 值 。 


Sys.setenv (SPARK_HOME = "/PATH/spark-2.0.0-bin-hadoop2.7") 
.libPaths(c(file.path(Sys.getenv ("SPARK_HOME"), "R", "lib"), 
.libPaths())) 


# 载 入 SparkR 库 

library (SparkR) 

sc <- sparkR.init (master = "local", 
sparkPackages="com.databricks:sparkcsv_2.10:1.3.0") 

sqlContext <- sparkRSQOL.init (sc) 


user.purchase.history <- 
"/PATH/ml-resources/spark-ml/Chapter_01/r-sparkapp/data/UserPurchaseHistory.csv" 
data <- read.df (sgqlContext, user.purchase.history, 
"com.databricks.spark.csv", header="false") 
head (data) 
count (data) 


parseFields <- function(record) { 
Sys.setlocale("LC ALL", "C") # necessary for strsplit() to work correctly 
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parts <- strsplit(as.character (record), ",") 
list(name=parts[1], product=parts[2], price=parts{[3]) 


} 


parsedRDD <- SparkR:::lapply (data, parseFields) 
cache (parsedRDD) 
numPurchases <- count (parsedRDD) 


sprintf ("Number of Purchases : %d", numPurchases) 
getName <- function(record)t{ 
record[1] 


} 


getPrice <- function(record)t 
record[3] 


nameRDD <- SparkR:::lapply (parsedRDD, getName) 
nameRDD = collect (nameRDD) 
head (nameRDD) 


uniqueUsers <- unique (nameRDD) 
head (uniqueUsers) 


priceRDD <- SparkR:::lapply (parsedRDD, function(x) { 
as.numeric(x$price[1])}) 
take (priceRDD, 3) 





totalRevenue <- SparkR:::reduce (priceRDD, "+") 
sprintf("Total Revenue : %$.2f", s) 


products <- SparkR:::lapply (parsedRDD, function(x) { list( 
toSstring(x$product [1]), 1) }) 

take (products, 5) 

productCount <- SparkR:::reduceByKey (products, "+", 2L) 

productsCountAsKey <- SparkR:::lapply (productCount, function(x) { listl( 
as.integer (x[2] [1]), x[1][1])}) 

productCount <- count (productsCountAsKkey) 

mostPopular <- toString(collect (productsCountAsKey) [[productCount]][[2]]1) 

sprintf("Most Popular Product : %s", mostPopular) 


在 Bash 终端 中 执行 如 下 命令 便 可 运行 该 脚本 : 
$ Rscript r-script-01.R 


相应 的 输入 应 如 下 : 


> sprintf("Number of Purchases : %d", numPurchases) 
[1] "Number of Purchases : 5" 


> uniqueUsers <- unique (nameRDD) 
> head (uniqueUsers) 

[[1]] 

[[1]] $name 
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[[1]] $name[[1]] 





[1] "John" 
[[2]] 

[[2]] $name 
[[2]] $name[[1]] 
[1] "Jack" 


[[3]] 

[[3]] $name 
[[3]] $name[[1]] 
[1] "Jill" 
[[4]] 

[[4]] $name 
[[4]] $name[[1]] 
[1] "Bob" 


> sprintf("Total Revenue : %.2f", totalRevenueNum) 
[1] "Total Revenue : 39.91" 


> sprintf("Most Popular Product : %s", mostPopular) 
[1] "Most Popular Product : iPad Cover" 


1.10 在 Amazon EC2 上 运行 Spark 


Spark 项 目 提供 了 在 Amazon EC2 上 构建 一 个 Spark 集群 所 需 的 脚本 , 位 于 ec2 文件 夹 下 。 输 
入 如 下 命令 便 可 调用 该 文件 夹 下 的 spark-ec2 脚本 : 


> ./ec2/spark-ec2 


当 不 带 参数 直接 运行 上 述 代 码 时 ,终端 会 显示 该 命令 的 用 法 信息 : 











Usage: spark-ec2 [options] <actiom> <clusber name> 
<action> can be: launch, destroy, login, stop, start, get-master 


Options: 





在 创建 一 个 Spark EC2 集群 前 ， 我 们 需要 一 个 Amazon 账号 。 


如 果 没 有 Amazon Web Services 账 号 ,可 以 在 https://aws.amazon.com/cn/ 注 册 。 
AWS 的 管理 控制 台地 址 是 https://aws.amazon.com/cn/console/。 


另外 , 我 们 还 需要 创建 一 个 Amazon EC2 密 钥 对 和 相关 的 安全 凭证 。 Spark 文档 提 到 了 在 EC2 
上 部 署 时 的 需求 : 


你 要 先 自己 创建 一 个 Amazon EC2 密 钥 对 。 通 过 管理 控制 台 登 入 你 的 Amazon Web 
Services 账号 后 , 单 击 左边 导航 栏 中 的 Key Pairs 按钮 ,然后 创建 并 下 载 相 应 的 私 钥 文 件 。 
通过 ssh 远程 访问 EC2 时 , 会 需要 提交 该 密 钥 。 该 密 钥 的 系统 访问 权限 必须 设 定 为 600 
( 即 只 有 你 可 以 读 写 该 文件 )， 否 则 会 访问 失败 。 
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当 需 要 使 用 spark-ec2 脚本 时 ， 需 要 设置 AWS_ACCESS_KEY ID 和 AWS_SECRET 
ACCESS_KEY 两 个 环境 变量 。 它 们 分 别 为 你 的 Amazon EC2 访问 密 钥 标识 (KeyID ) 和 
对 应 的 密 钥 密码 ( secret access key )。 这 些 信息 可 以 从 AWS 主页 上 依次 点 击 Account | 
Security Credentials | Access Credentials 获得 。 








创建 一 个 密 钥 对 时 ， 最 好 选取 一 个 好 记 的 名 字 来 命名 。 这 里 假设 密 钥 对 名 为 spark， 对 应 的 


密 钥 文件 的 名 称 为 spark.pem。 如 上 面 提 到 的 ， 我 们 需要 确认 窗 钥 的 访问 权限 并 设 定 好 所 需 的 环 


境 变量 : 


> chmod 600 spark.pem 
> export AWS_ACCESS_ KEY_ID="..." 
> export AWS_SECRET ACCESS KEY="..." 


上 述 下 载 所 得 的 密 钥 文 件 只 能 下 载 一 次 ( 即 在 刚 创 建 后 )， 故 对 其 既 要 安全 保存 又 要 避免 











注意 ， 下 一 节 中 会 启用 一 个 Amazon EC2 集群 ， 这 会 在 你 的 AWS 账号 下 产生 相应 的 费用 。 





启动 一 个 EC2 Spark 集群 








现在 我 们 可 以 启动 一 个 小 型 Spark 集群 了 。 启 动 它 只 需 进 入 ec2 目录 ， 然 后 输入 


$ cd ec2 
$ ./spark-ec2 --key-pair=rd spark-userl1 --identity-file=spark.pem 
--region=us-east-1 --zone=us-east-la launch my-spark-cluster 


这 将 启动 一 个 名 为 test-cluster 的 新 集群 ， 其 包含 m3.medium 级 别 的 主 节 点 和 从 节点 各 一 个 。 





























该 集群 所 用 的 Spark 版 本 适 配 于 Hadoop 2。 我 们 使 用 的 密 钥 名 和 密 钥 文件 分 别 是 spark 和 
spark.pem。( 如 果 你 给 密 钥 文件 取 了 不 同 的 名 字 ， 或 者 有 既 存 的 AWS 密 钥 对 ， 就 使 用 该 名 称 。) 





集群 的 完全 启动 和 初始 化 需要 一 些 时 间 。 在 运行 启动 代码 后 ， 应 该 会 立即 看 到 如 下 所 示 的 


内 容 : 


Setting up security groups... 

Creating security group my-spark-cluster-master 

Creating security group my-spark-cluster-slaves 

Searching for existing cluster my-spark-cluster in region 
us-east-1... 

Spark AMI: ami-5bb18832 

Launching instances... 

Launched 1 slave in us-east-la, regid = r-5a893af2 

Launched master in us-east-la, regid = r-39883b91 

Waiting for AWS to propagate instance metadata... 

Waiting for cluster to enter 'ssh-ready' state........... 

Warning: SSH connection error. (This could be temporary.) 

Host: ec2-52-90-110-128 .compute-1.amazonaws .Com 
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SSH return code: 255 
SSH output: ssh: connect to host ec2-52-90-110-128 .compute- 


1.amazonaws .Com port 22: Connection refused 

Warning: SSH connection error. (This could be temporary.) 

Host: ec2-52-90-110-128 .compute-1.amazonaws .Com 

SSH return code: 255 

SSH output: ssh: connect to host ec2-52-90-110-128 .compute- 
1.amazonaws .Com port 22: Connection refused 

Warnig: SSH connection error. (This could be temporary.) 

Host: ec2-52-90-110-128 .compute-1.amazonaws .Com 

SSH return code: 255 

SSH output: ssh: connect to host ec2-52-90-110-128 .compute- 
1.amazonaws .com port 22: Connection refused 

Cluster is now in 'ssh-ready' state. Waited 510 seconds. 


如 采集 群 启动 成 功 ， 最 终 应 可 在 终端 中 看 到 如 下 的 输出 : 

















./tachyon/setup.sh: line 5: /root/tachyon/bin/tachyon: 
No such file or directory 

./tachyon/setup.sh: line 9: /root/tachyon/bin/tachyon-start.sh: 
No such file or directory 

[timing] tachyon setup: 00h 00m 01s 

Setting up rstudio 

spark-ec2/setup.sh: line 110: ./rstudio/setup.sh: 
No such file or directory 

[timing] rstudio setup: 00h 00m 00s 

Setting up ganglia 

RSYNC'ing /etc/ganglia to slaves... 

ec2-52-91-214-206 .compute-1.amazonaws .Com 


Shutting down GANGLIA gmond: [FAILED] 
Starting GANGLIA gmond: [ OK ] 
Shutting down GANGLIA gmond: [FAILED] 
Starting GANGLIA gmond: [ OK ] 
Connection to ec2-52-91-214-206.compute-1.amazonaws .Com closed. 

Shutting down GANGLIA gmetad : [FAILEDI] 
Starting GANGLIA gmetad : [ ok ] 
Stopping httpd: [FAILED] 


Starting httpd: httpd: Syntax error on line 154 of /etc/httpd 
/conf/httpd.conf: Cannot load /etc/httpd/modules/mod authz core.so 
into server: /etc/httpd/modules/mod authz core.so: cannot open 
shared object file: No such file or directory [FAILED] 

[timing] ganglia setup: 00h 00m 03s 

Connection to ec2-52-90-110-128 .compute-1.amazonaws .Com closed. 

Spark standalone cluster started at 
http://ec2-52-90-110-128 .compute-1.amazonaws .com:8080 

Ganglia started at http://ec2-52-90-110-128 .compute- 
1.amazonaws .com:5080/gang1ia 

Done! 

ubuntu@ubuntu:~/work/spark-1.6.0-bin-hadoop2.6/ec2$ 


这 将 创建 两 个 虚拟 机 来 分 别 充当 Spark 主 节 点 和 工作 节点 ， 类 型 均 为 ml.large， 如 以 下 截图 
所 示 。 
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Q 
Name ~ InstancelD ^ Instance Type ™ AvailabilityZone ” Instance State ” Status Checks ~ 
my-spark-clu... i-35e1b5b4 m1.large us-east-1a @ running 及 Initializing 
rd-app i-f13c33de t2.micro Us-east-1e 十 running 3 2/2 checks ... 
my-spark-clu... i-f4e3b775 m1.large us-east-1a @ running £ Initializing 











要 测试 是 否 能 连接 到 新 集群 ， 可 以 输入 如 下 命令 : 





$ ssh -i spark.pem root@ec2-52-90-110-128.compute-1.amazonaws .Com 


注意 ， 该 命令 中 roote 后 面 的 卫 地 址 需要 替换 为 你 自己 的 Amazon EC2 的 公开 域名 。 该 域 
名 可 在 启动 集群 时 的 终端 输出 中 找到 。 


另外 ， 也 可 以 通过 如 下 命令 得 到 集群 的 公开 域名 : 





> ./spark-ec2 -i spark.pem get-master test-cluster 


上 述 ssh 命令 执行 成 功 后 ， 你 会 连接 到 EC2 上 Spark 集群 的 主 节 点 ， 同 时 终端 的 输入 应 与 
下 图 类 似 : 








ec2-52-91-214-206. compute-1.amazonaws .com 

:/tachyon/setup.sh: Line 5: /root/tachyon/bin/tachyon: No such file or directory 
./tachyon/setup.sh: Line 9: /root/tachyon/bin/tachyon-start.sh: No such file or directory 
[timing] tachyon setup: 00h 00m 01s 

Setting up rstudio 

spark-ec2/setup.sh: Line 110: ./rstudio/setup.sh: No such file or directory 
[timing] rstudio setup: 00h 00m 00s 

Setting up ganglia 

RSYNC'ing /etc/ganglia to slaves... 

ec2-52-91-214-206. compute-1.amazonaws. com 

Shutting down GANGLIA gmond: [FAILED] 

Starting GANGLIA gmond: [ OK ] 

Shutting down GANGLIA gmond: [FAILED] 

Starting GANGLIA gmond: | 


Connection to ec2-52-91-214-286.compute-1.amazonaws.com closed. 

Shutting down GANGLIA gmetad: [FAILED] 

Starting GANGLIA gmetad: 1 

Stopping httpd: [FAILED] 

Starting httpd: httpd: Syntax error on Line 154 of /etc/httpd/conf/httpd.conf: Cannot load 
/etc/httpd/modules/mod_authz_core.so into server: /etc/httpd/modules/mod_authz_core.so: cannot open shared object file: 
No such file or directory 


[FAILED] 
[timing] ganglia setup: 09h 00m 03s 
Connection to ec2-52-90-110-128.compute-1.amazonaws.com closed. 
Spark standalone cluster started at http://ec2-52-90-110-128.compute-1.amazonaws.com:8080 
Ganglia started at http://ec2-52-90-110-128.compute-1.amazonaws. com:5080/ganglia 
Done'! 
ubuntu@ubuntu:~/work/spark-1.6.0-bin-hadoop2.6/ec2$ 




















如 果 要 测试 集群 是 否 已 正确 配置 Spark 环境 ， 可 以 切换 到 Spark 目录 ， 然 后 以 本 地 模式 运行 
一 个 示例 程序 : 


> cd spark 
> MASTER=local[2] ./bin/run-example SparkPi 


其 输出 应 该 与 在 你 自己 计算 机 上 的 输出 类 似 : 
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14/01/30 20:20:21 INFO SparkContext: Job finished: reduce at SparkPi. 
scala:35, took 0.864044012 s 
Pi is roughly 3.14032 





这 样 就 有 了 包含 多 个 节 点 的 真实 集群 可 以 测试 集群 模式 下 的 Spark 了 。 我 们 会 在 一 个 从 节 
点 的 集群 上 运行 相同 的 示例 。 运 行 命令 和 上 面相 同 ,但 用 主 节点 的 URL 作为 MASTER 的 值 : 








> MASTER=spark:// ec2-52-90-110-128.compute- 
1.amazonaws .com:7077 ./bin/run-example SparkPi 


Cs 注意 ， 你 需要 将 上 面 代 码 中 的 公开 域名 替换 为 你 自己 的 。 








HI 


同样 ， 命 令 的 输出 应 该 和 本 地 运行 时 的 类 似 。 不 同 的 是 ,这 里 会 有 日 志 消 息 提 示 你 的 驱动 和 
序 已 连接 到 Spark 集群 的 主 节 点 。 





14/01/30 20:26:17 INFO client.Clients$sClientActor: Connecting to master 
Spark://ec2-54-220-189-136.eu-west-1.compute.amazonaws .Com:7077 

14/01/30 20:26:17 INFO cluster.SparkDeploySchedulerBackend: Connected to 
Spark cluster with app ID app-20140130202617-0001 

14/01/30 20:26:17 INFO client.Clients$sClientActor: Executor added: 
app- 20140130202617-0001/0 on worker-20140130201049- 
ip-10-34-137-45.eu-west-1.compute 。 internal-57119 
(ip-10-34-137-45.eu-west-1.compute.internal:57119) with 1 cores 

14/01/30 20:26:17 INFO cluster.SparkDeploySchedulerBackend: 
Granted executor ID app-20140130202617-0001/0 on hostPort ip-10-34-137-45. 
eu- west-1.compute.internal:57119 with 1 cores, 2.4 GB RAM 

14/01/30 20:26:17 INFO client.Clients$ClientActor: 
Executor updated: app- 20140130202617-0001/0 is now RUNNING 

14/01/30 20:26:18 INFO spark.SparkContext: Starting job: reduce at 
SparkPi.scala:39 


读者 不 妨 在 集群 上 自由 练习 ， 熟 悉 一 下 Scala 的 交互 式 终端 
$ ./bin/spark-shell --master Spark:// ec2-52-90-110-128 .compute-1.amazonaws .Com:7077 
练习 完 后 ， 输 入 exit 便 可 退出 终端 。 另 外 也 可 以 通过 如 下 命令 来 体验 PySpark 终 


$ ./bin/pyspark --master spark:// ec2-52-90-110-128 .compute-1.amazonaws .com:7077 


通过 Spark 主 节 点 网 页 界面 , 可 以 看 到 主 节 点 下 注册 了 哪些 应 用 。 该 界面 位 于 ec2-52-90-110- 
128.compute-1.amazonaws.com:8080( 同样 ， 需 要 将 公开 域名 替换 为 你 自己 的 )。 


值得 注意 的 是 ，Amazon 会 根据 集群 的 使 用 情况 收取 费用 。 所 以 在 使 用 完毕 后 ， 记 得 停止 或 
终止 这 个 测试 集群 。 要 终止 该 集群 ， 可 以 先 在 你 本 地 系统 的 ssh 会 话 里 输入 exit ， 然 后 再 输入 
如 下 命令 : 


$ ./ec2/spark-ec2 -k Spark -i spark.pem destroy test-cluster 


应 该 可 以 看 到 这 样 的 输出 : 
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Are you sure you want to destroy the cluster test-cluster? 
The following instances will be terminated: 
Searching for existing cluster test-cluster... 


Found 1 master(s), 


1 slaves 


> ec2-54-227-127-14.compute-1.amazonaws .Com 
> ec2-54-91-61-225.compute-1.amazonaws .Com 
ALL DATA ON ALL NODES WILD BE LOST!! 
Destroy cluster test-cluster (y/N): Y 


Terminating master... 
Terminating slaves... 





输入 y 然后 回 车 ， 便 可 终止 该 集群 。 


恭喜 ! 现在 你 已 经 做 到 了 在 云端 设置 Spark 集群 ， 并 在 它 上 面 运行 了 一 个 完全 并 行 的 示例 程 








mm 


序 ， 最 后 也 终止 了 这 个 集群 。 如 果 在 学 习 后 续 章节 时 ， 你 想 在 集群 上 运行 示例 或 你 自己 的 程序 ， 


可 以 再 次 使 用 这 些 脚本 并 
它们 就 行 。) 








1.11 在 Amazon Elastic Map Reduce 上 配置 并 运行 Spark 














首 定 想 要 的 集群 规模 和 配置 。( 留意 一 下 费用 ， 并 记得 使 用 完毕 后 关闭 


这 里 将 介绍 如 何 借助 EMR ( Amazon Elastic Map Reduce ) 来 启用 一 个 包含 Spark 的 Hadoop 





集群 。 这 可 通过 如 下 步骤 来 实现 。 


(1) 启动 一 个 Amazon EMR Cluster。 
(2) 在 如 下 地 址 打开 Amazon EMR UI 终 端 : https://console.aws.amazon.com/elasticmapreduce/home。 
(3) 如 以 下 截图 所 示 ， 选 择 Create cluster ( 创建 集群 )。 


阁 入 AWS ~ Services ~ 








Welcome to Amazon Elastic MapReduce 


Amazon Elastic MapReduce (Amazon EMR) is a web service that enables businesses, researchers, data 
analysts, and developers to easily and cost-effectively process vast amounts of data. 


You do not appear to have any clusters. Create one now: 
How Elastic MapReduce Works 


Upload Create Monitor 


a 


Upload your data and processing Configure and create your cluster by Monitor the health and progress of 
application to S3. specifying data inputs, outputs, your cluster. Retrieve the output in 
cluster size, security settings, etc. 





Learn more Learn more Learn more 








(4) 如 以 下 截图 所 示 ， 选 择 Amazon AMI 3.9.0 或 更 新 版 本 。 
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AWS ~ Services ~ 





Elastic MapReduce v Create Cluster 





Create Cluster - Quick Options eot edvanced options 
General Configuration 


Cluster name My cluster 


wj Logging @ 
S3 folder s3://rd-emr-1/ 所 
Launch mode (@ Cluster @ (| Step execution @ 


Software configuration 


Vendor @ Amazon MapR 


Release | emr-4.2.0 se 


Applications ‘ ) All Applications: Ganglia 3.6.0, Hadoop 2.6.0, Hive 

1.0.0, Hue 3.7.1, Mahout 0.11.0, Pig 0.14.0, and 
Spark 1.5.2 
Core Hadoop: Hadoop 2.6.0 with Ganglia 3.6.0, 
Hive 1.0.0, and Pig 0.14.0 
Presto-Sandbox: Presto 0.125 with Hadoop 2.6.0 
HDFS and Hive 1.0.0 Metastore 

® Spark: Spark 1.5.2 on Hadoop 2.6.0 YARN with 
Ganglia 3.6.0 


Hardware configuration 














(5) User Interface 中 提供 了 Application 预 安装 选项 ， 从 中 选择 Spark 1.5.2 或 更 新 版 本 ， 并 点 
击 Add 按钮 。 
(6) 根据 需要 选择 其 他 硬件 选项 。 
口 Instance type: 主机 类 型 
口 Key pair: 用 于 SSH 的 密 钥 对 
口 Permissions: 权限 
口 [AM roles: IAM 角色 ，Default ( 默认 ) 或 Custom ( 自 定 义 ) 


见 如 下 截图 。 











Software configuration 
Vendor (®) Amazon MapR 
Release | emr-4.2.0 I 
Applications All Applications: Ganglia 3.6.0, Hadoop 2.6.0, Hive 


1.0.0, Hue 3.7.1, Mahout 0.11.0, Pig 0.14.0, and 
Spark 1.5.2 


Core Hadoop: Hadoop 2.6.0 with Ganglia 3.6.0, 
Hive 1.0.0, and Pig 0.14.0 


Presto-Sandbox: Presto 0.125 with Hadoop 2.6.0 
HDFS and Hive 1.0.0 Metastore 


国 Spark: Spark 1.5.2 on Hadoop 2.6.0 YARN with 





Ganglia 3.6.0 
Hardware configuration 
Instance type | m3.xlarge $$ 
Number of instances 2 (1 master and 1 core nodes) 
Security and access 
EC2 key pair | rd_spark-user1 $) @ Leam how to create an EC2 key palr. 
Permissions (图 Default Custom 


Use default IAM roles. If roles are not present, they will be automatically 
created for you with managed policies for automatic policy updates. 


EMR role EMR_DefautRole @ 


EC2 instance profile EMR_EC2 DefautRole @ 
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(7) 点 击 Create cluster 按钮 。 集 群 将 会 开始 初始 化 ， 如 下 图 所 示 。 





Rajdeep = N. Virginia - Support ~ 
Elastic MapReduce » Cluster List > Cluster Details EMR Help 
Add step Resize Clone Terminate AWS CLI Export 

Cluster: My cluster Starting s 


Connections: 
Master public DNS: 









Tags: ~ View AN/ Edit 
Summary Configuration Details Network and Hardware Security and Access 
ID: j-122BTZQYS3414 Release label: emr-4.2.0 Availability zone: ~- Key names rd_spark-userl 
Creation date: 2016-01-13 16:04 (UTC+5:30) Hadoop distribution: Amazon 2.6.0 Subnet II e787 人 9 EC2 instance profile; EMR_LEC2_DefauhRole 
Elapsed time: 2 seconds Applications: Ganglia 3.6.0, Spark 1.5.2 9 1 m3xlarge EMR role; EMR_DefaultRole 
Auto-terminate: No Log URI: s3://rd-emr-1/ 用 m3.xlarge Visible to all users: Al Change 
Termination protection: Off Change EMRFS consistent Disabled Securlty groups for ElasticMapReduce-master 
Security groups for ElasticMapReduce-slave 
Core & Task: 
» Monitoring 
» Hardware 
» Steps 


Configurations 


Bootstrap Actions 











(8) 登录 主 节 点 。 当 EMR 集群 就 绪 后 ， 便 可 通过 SSH 来 登录 主 节 点 。 
$ ssh -i rd spark-userl.pem hadoop@ec2-52-3-242-138.compute-1.amazonaws .Com 


其 输出 如 下 : 


Last login: Wed Jan 13 10:46:26 2016 


| ) 
| / Amazon Linux AMI 


https://aws.amazon.com/amazon-linux-ami/2015.09-release-notes/ 
23 package(s) needed for security, out of 49 available 

Run "sudo yum update" to apply all updates. 

[hadoop@ip-172-31-2-31 ~]$ 


(9) 启动 Spark Shell。 


[hadoop@ip-172-31-2-31 ~]$ spark-shell 
16/01/13 10:49:36 INFO SecurityManager: Changing view acls to: hadoop 
16/01/13 10:49:36 INFO SecurityManager: Changing modify acls to: hadoop 
16/01/13 10:49:36 INFO SecurityManager: SecurityManager: 
authentication disabled; ui acls disabled; users with view 
permissions: Set (hadoop); users with modify permissions: Set (hadoop) 
16/01/13 10:49:36 INFO HttpServer: Starting HTTP Server 
16/01/13 10:49:36 INFO Utils: Successfully started service 'HTTP 
class server' on port 60523. 
Welcome to 


/ / // 

/ / &grave;/ _/'/ 

4 1 wr Version 1.5.2 
/_/ 


scala> sc 
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(10) 运行 EMR 上 的 Spark 基本 示例 。 


scala> val textFile = sc.textFile("s3://elasticmapreduce/samples 
/hive-ads/tables/impressions/dt=2009-04-13-08-05 
/ec2-0-51-75-39.amazon.com-2009-04-13-08-05.10g") 

scala> val linesWithCartoonNetwork = textFile.filter(line => 
line.contains ("cartoonnetwork.com")).count() 


其 输出 应 如 下 : 


linesWithCartoonNetwork: Long = 9 





1.12” Spark 用 户 界面 


Spark 提供 了 一 个 Web 界面 ， 它 可 用 于 监控 任务 进度 和 运行 环境 ， 以 及 运行 SQL 命令 。 


SparkContext 通过 4040 端口 发 布 一 个 Web 界面 来 显示 与 当前 应 用 有 关 的 信息 。 这 些 信 
息 包括 : 


口 各 个 调度 阶段 和 任务 的 列表 

口 RDD 大 小 和 内 存 使 用 情况 的 概要 
口 环境 信息 

口 正在 运行 的 执行 器 的 相关 信息 


该 界面 可 通过 https://<driver-node>:4040 在 浏览 器 中 访问 。 辱 同一 主机 上 有 多 个 Sparkcontext 
在 运行 ， 则 会 从 4040 开始 依次 分 配 不 同 的 端口 ， 如 4041、4042， 以 此 类 推 。 


如 下 截图 显示 了 Web 界面 所 提供 的 部 分 信息 : 























€, @localhost-4040/e vc|| 图 " Google QQ 食 自 时 会 村 
Spak: ni Spark shell application UI 
Jobs Stages Storage | Environment Executors SQL 
a BR 
Environment 
Runtime Information 
Name Value 
Java Home /homelubuntu/work/jdk1.7.0_60/ire 
Java Version 1.7.0_60 (Oracle Corporation) 
Scala Version version 2.11.8 
Spark Properties 
Name Value 
spark.app.id local-1480683409191 
spark.app.name Spark shell 
spark.driver.host 192.168.22.238 
spark.driver.port 38559 
spark.executor.id driver 
spark.home /homelubuntuwork/spark-2.0.0-bin-hadoop2.7 
spark jars 
spark.master locall"] 
spark.repl.class.outputDir hmplspark-4013153d-c44c-4dfa-8a01-dcc59a0314a8 
HepLHibnda67_d58e_431d.a2dn_5egaeeaec61 
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€ |@localhost:4040/executors vC| | 图 ~ Google 负 人 倍 白 县 全 | 翌 
spoke ce Jobs Stages Storage Environment Executors SQL Spark shell application UI 
Executors 
Summary 
RDD Storage Disk Active Failed Complete Total Task Time Shuffle Shuffle 
Blocks Memory Used Cores Tasks Tasks Tasks Tasks (GC Time) Input Read Write 
Active(1) 0 0.0B/366.3 0.0B 4 0 0 0 0 Oms (0 ms) 0.0B 0.0B 0.0B 
MB 
Dead(0) 0 0.0B/0.0B 0.0B 0 0 0 0 0 0 ms (0 ms) 0.0B 0.0B 0.0B 
Total(1) 0 0.0B/3663 00B 4 0 0 0 0 0ms(Oms) 00B 00B 0.0B 
MB 
Executors 
Task 
Time 
Executor RDD Storage Disk Active Failed Complete Total (GC Shuffle Shuffle Thread 
ID Address Status Blocks Memory Used Cores Tasks Tasks Tasks Tasks Time) Input Read Write Dump 
driver 192.168.22.238:46734 Active 0 0.0B/ 0.0B 4 0 0 0 0 Oms 00B 00B 0.0B Thread 
366.3 (0 Dump 
MB ms) 























Spark Executors 状态 汇总 界 玫 


1.13 Spark 所 支持 的 机 器 学 习 算法 
Spark ML 支持 如 下 算法 。 
口 协同 过 滤 


和 交替 最 小 二 乘法 ( ALS，alternating least squares ) 。 协 同 过 滤 常 用 于 推荐 系统 。 这 些 技 
术 旨 在 计算 用 户 -物品 关联 矩阵 中 缺失 的 关联 关系 。spark.mllib 目前 支持 基于 模型 
的 协同 过 滤 。 在 其 实现 中 ， 用 户 和 物品 通过 一 个 由 若干 隐藏 因子 (latent factor ) 组 成 的 
集合 来 表示 ， 进 而 预测 缺失 的 关联 关系 。spark.mllib 使 用 ALS 算法 来 学 习 这 些 隐 
藏 因 子 。 


口 聚 类 。 聚 类 旨 在 处 理 一 种 无 监督 学 习 问 题 ， 即 通过 某 种 相似 性 的 度量 将 不 同 的 对 象 分 组 
(或 分 类 )。 聚 类 常用 于 探索 性 分 析 或 作为 分 层 监督 学 习 流 程 的 一 个 部 分 。 第 二 种 情况 会 
对 不 同 的 类 别 训练 出 相应 的 特征 分 类 器 或 回归 模型 。Spark 中 实现 了 如 下 聚 类 算法 。 

晶 K- 均 值 ( K-means ) 。 这 是 常见 的 聚 类 算法 之 一 ， 它 将 各 个 数据 点 归 类 到 多 个 类 别 中 ， 
但 此 时 类 别 的 数目 已 预先 定义 好 ， 即 由 用 户 指定 。spark.mllip 的 对 应 实现 包含 了 其 
并 行 化 版 本 的 衍化 算法 K-means++。 
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高 斯 混合 。 高 斯 混合 模型 (GMM ，Gaussian mixture model ) 指 一 种 组 合 分 布 ， 其 中 
各 数据 点 是 从 个子 高 斯 分 布 之 一 中 取出 的 。 各 个 子 分布 都 有 自己 的 概率 分 布 。 
spark.mllip 的 对 应 实现 使 用 了 期 望 最 大 化 ( expectation-maximization ) 算法 来 求解 
给 定 样本 的 最 大 似 然 (maximum-likelihood )。 


窜 和 迭 代 聚 类 ( PIC，power iteration clustering ) 是 用 于 对 边 加 权 图 中 的 顶点 进行 聚 类 的 
一 种 可 扩展 算法 。 该 类 图 中 的 边 的 权 值 对 应 两 端 硕 点 的 相似 性 。 该 算法 通过 窒 达 代 来 
计算 图 (所 对 应 的 归 一 化 后 的 相似 和 矩阵，affinity matrix ) 的 伪 特 征 向 量 ( pseudo 


eigenvector )。 

祖 迭 代 是 一 种 特征 值 求解 算法 。 给 定 一 个 矩阵 X， 该 算法 将 求 出 一 个 数值 4 〈 特征 值 ) 
和 一 个 非 零 向 量 "( 特征 向 量 )， 使 得 Xv=4v。 

和 矩阵 的 伪 特 征 向 量 可 视 为 近邻 矩阵 (nearby matrix ) 的 特征 向 量 。 伪 特征 向 量 的 详细 定 
义 如 下 。 

设 4 为 严 行 了 列 的 矩阵 , 为 任何 满足 | 到 l= 的 矩阵 ,那么 4 的 伪 特 征 向 量 为 4+E 的 
特征 向 量 。 该 特征 向 量 利用 它 来 图 的 顶点 进行 聚 类 。 


spark.mllib 包含 了 PIC 的 一 种 实现 , 该 实现 基于 GraphX。 它 以 元 组 (tuple ) 的 RDD 
为 输入 ， 输 出 带 有 分 类 结果 (标签 ) 的 模型 。 相 似 性 的 表示 必须 为 非 负 值 。PIC 假设 相 
似 度 为 对 称 的 。 


( 在 统计 学 中 ， 相 似 性 度量 或 相似 性 函数 是 一 种 量化 两 个 对 象 之 间 相 似 度 的 实数 函数 。 
该 度量 与 距离 函数 相反 。 一 种 常见 的 相似 性 函数 是 余弦 相似 性 。) 


若 用 srcia 和 astIg 分 别 表示 图 中 的 两 个 顶点 ， 则 (srcId, dstIgd) 在 输入 数据 中 最 
多 只 能 出 现 一 次 ， 因 为 它 与 (dstId，src1Igd) 等 效 。 


隐 含 狄 利克 雷 分 布 (LDA ，latent Dirichlet allocation ) 是 从 一 系列 文本 文档 中 推断 若干 
主题 (topic ) 的 一 种 模型 ， 是 聚 类 模型 的 一 种 。 主 题解 释 如 下 。 


主题 为 聚 类 的 中 心 ， 而 各 文本 对 应 从 相应 主题 中 抽取 的 样本 。 主 题 和 文本 都 存在 于 一 个 
特征 空间 中 , 这 里 的 特征 对 应 表示 不 同 单词 出 现 次 数 的 向 量 ( 即 词 袋 模型 , bag of words )。 


LDA 通过 对 文本 是 如 何 生成 的 建 模 ， 进 而 聚 类 ， 而 非 使 用 传统 的 距离 表示 。 


二 分 K- 均 值 (bisecting K-means ) 是 一 种 典型 的 层次 聚 类 算法 。 层 次 聚 类 分 析 ( HCA， 
hierarchial cluster analysis ) 会 自 顶 向 下 分 层 构 建 出 不 同 层次 的 类 ( 的 划分 ) 。 在 这 类 算 
法 中 ， 所 有 的 数据 点 从 同一 个 类 别 开 始 ， 并 递归 式 地 向 下 分 层 细 分 。 


层次 聚 类 常用 于 聚 类 分 析 中 需要 构建 类 的 层次 结构 的 场景 。 




































































过 

































































34 


第 1 章 ”Spark 的 环境 搭建 与 运行 





和 流 式 K- 均 值 聚 类 ( steaming K-means ) 。 当 处 理 的 数据 为 数据 流 时 ， 需 要 根据 新 的 数据 
来 动态 评估 并 更 新 现 有 的 聚 类 。spark.mllib 支持 流 式 及- 均值 聚 类 分 析 ， 并 提供 相 
关 的 参数 来 控制 更 新 期 限 。 该 算法 使 用 一 种 泛 化 的 小 批量 K- 均 值 更 新 规则 。 














口 分 类 

















和 决策 树 〈 decision trees )。 决 策 树 及 其 集成 算法 (ensemble ) 是 用 于 分 类 和 回归 的 一 种 模 
型 。 决 策 树 具有 可 解释 性 高 、 能 处 理 类 别 属性 以 及 可 扩展 到 多 类 别 场景 的 特点 ， 因 而 
使 用 广泛 。 它 们 并 不 需要 特征 缩放 (feature scaling ) ， 而 且 能 捕获 非 线性 特征 和 特征 之 
间 的 关联 。 树 集成 算法 、 随 机 森林 和 Boosting 是 分 类 和 回归 类 应 用 中 表现 最 优 的 几 种 。 


spark.mllib 中 的 决策 树 模 型 支持 二 分 类 、 多 类 别 和 回归 三 种 场景 ,支持 连续 型 和 高 
散 型 ( 如 类 别 ) 特征 。 该 实现 按 行 对 数据 进行 分 区 ， 从 而 支持 数 百 万 实例 上 的 分 布 式 
训练 。 


朴素 贝 叶 斯 (naive Bayes ) 是 一 类 应 用 贝 叶 斯 理论 的 概率 分 类 模型 。 该 模型 有 一 个 强 
(朴素 ) 假设 ， 即 各 个 特征 之 间 相 互 独立 。 


朴素 贝 叶 斯 是 一 种 多 分 类 算法 ， 它 假设 特征 之 间 两 两 独立 。 对 给 定 的 一 组 训练 数据 ， 

它 计算 给 定 标签 时 每 个 特征 的 条 件 概 率 分 布 ， 然 后 利用 贝 叶 斯 理论 来 计算 给 定数 据点 

的 标签 的 条 件 概 率 分 布 ， 并 用 该 分 布 来 进行 预测 。spark.mllib 支持 多 项 式 朴素 贝 叶 

斯 ( multinomial naive Bayes ) 和 伯 努 利 朴素 贝 叶 斯 (Bernoulli naive Bayes )。 这 些 模型 
稼 用 于 文本 分 类 。 

和 概率 分 类 器 (probability classifier ) 。 在 机 需 学 习 中 ， 概 率 分 类 器 用 于 预测 给 定 的 输入 

数据 在 一 组 类 别 上 的 概率 分 布 ， 而 非 输 出 该 数据 最 可 能 的 类 别 。 它 提供 分 类 归属 上 的 

可 能 性 。 该 可 能 性 本 身 具 有 某 些 意义 ， 也 能 和 其 他 分 类 器 集成 。 

logistic 回归 用 于 二 元 (是否 ) 判断 。 它 通过 一 个 logistic 函数 估算 的 概率 来 度量 与 标签 

有 关 变 量 和 无 关 变 量 的 关联 性 。 该 函数 是 一 个 累积 logistic 分 布 (cumulative logistic 

distribution ) 函数 。 

它 预 测 输出 的 概率 ， 是 广义 线性 模型 (GLM ，generalized linear models ) 的 一 种 特例 。 

相关 背景 知识 和 实现 的 细节 可 见 spark.mllib 中 与 logistic 回归 相关 的 文档 。 

GLM 对 变量 的 误差 分 布 而 非 正 态 分 布 建 模 ， 因 而 被 视 为 线性 回归 的 一 种 泛 化 。 

随机 森林 ( random forest ) 算法 通过 集成 多 个 决策 树 来 确定 决策 边界 。 随 机 森林 结合 许 

多 决策 树 ， 从 而 降低 了 结果 过 拟 合 ( overfitting ) 的 风险 。 

Spark ML 的 决策 树 算 法 支持 二 元 和 多 类 别 分 类 与 拟 合 ， 可 用 于 连续 性 或 标签 属性 类 

数值 。 
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口 降 维 ( dimensionality reduction ) 是 减少 数据 维度 〈 特征 数目 ) 的 过 程 ， 其 输出 供 后 续 机 
器 学 习 。 它 能 用 于 从 原始 特征 中 提取 隐藏 特征 ， 或 在 保证 整体 结构 的 前 提 下 对 数据 进行 
压缩 。MLlib 在 RowMatrix 类 的 基础 上 提供 了 降 维 支持 。 


晶 奇异 值 分 解 (SVD ，singular value decomposition ) 的 定义 如 下 : 给 定 一 个 行列 数 为 (m,n) 且 
元 素 值 为 实数 或 复数 的 矩阵 M， 其 奇异 值 分 解 形 如 UEV*Y， 其 中 UU、 和 人 V 的 行列 数 分 
别 为 (mw R)、(R, R) 和 (2 及， 且 五 的 对 角 线 元 素 为 非 负 实 数 ， 厂 为 单位 抢 阵 ， 尺 等 于 和 矩 
阵 的 秩 (Rank ) 。 瑟 表示 严 的 共 斩 转 置 。 


和 主 成 分 分 析 (PCA ，principal component analysis ) 是 一 种 统计 学 方法 ， 旨 在 找到 使 得 
数据 点 在 第 一 维度 上 的 差异 最 大 化 的 旋转 。 这 也 使 得 在 后 续 各 个 维度 上 的 差异 能 最 
化 。 旋 转手 阵 的 列 被 称 为 主 成 分 。PCA 是 一 种 常用 的 降 维 方法 。 


MLlib 提供 对 多 行 少 列 矩 阵 的 PCA 支持 。 该 支持 以 RowMatrix 类 为 基础 , 是 和 矩阵 以 行 
优先 方式 存储 。Spark 同样 支持 特征 提取 和 转换 ,具体 如 TF-IDF 、ChiSquare 、Selector、 
Normalizer 和 Word2Vector。 


口 频繁 模式 挖掘 


FP-growth。FP 为 frequent pattern ( 频繁 模式 ) 的 缩写 。 该 算法 首先 计算 数据 中 物品 的 
出 现 次 数 ( 属性 -属性 值 对 ) 并 将 其 保存 到 头 表 中 〈headertable ) 。 


第 二 轮 时 ， 它 通过 插入 实例 ( 由 物品 ， 即 items 构成 ) 来 构建 FP-Tree 结构 。 每 个 实例 
对 应 的 多 个 物品 ， 参 照 各 自在 数据 集中 出 现 的 频率 来 降序 排列 。 这 使 得 树 能 快速 处 理 。 
各 实例 中 ， 低 于 特定 最 小 频率 阔 值 的 物品 会 被 排除 。 对 于 多 数 实例 中 高 频率 出 现 的 物 
品 有 所 重复 的 情况 ，FP-Tree 在 接近 树 根 的 分 支 进行 了 高 度 压缩 。 


四 关联 规则 (association rule )。 关联 规则 学 习 旨 在 发 现 海量 数据 的 各 个 特征 之 间 的 某 些 关系 。 
它 实 现 了 一 个 并 行 的 规则 生成 算法 来 构建 最 终 想 要 的 规则 ， 该 规则 以 单个 物品 为 输出 。 
口 PrefixSpan。 这 是 一 种 序列 模式 挫 掘 算法 。 
口 评估 指标 (evaluation metrics )。spark.mllipb 提供 了 一 套 指标 ， 用 于 评估 算法 。 


口 PMML 模型 输出 。PMML (predictive model markup language， 预 测 模型 标记 语言 ) 是 一 
种 基于 XML 的 预测 模型 交换 格式 。 它 使 得 各 个 分 析 类 应 用 能 够 描述 并 相互 交换 由 机 器 学 
习 算 法 生成 的 预测 模型 。 


spark.mllib 支持 以 PMML 或 等 效 的 格式 来 输出 其 机 器 学 习 模 型 。 
口 参数 优化 算法 
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和 随机 梯度 下 降 法 ( SGD ，stochastic gradient descent ) 。SGD 通过 优化 梯度 下 降 来 最 小 化 
一 个 目标 函数 。 该 函数 为 若干 可 微 函 数 的 和 。 
各 类 梯度 下 降 法 和 随机 次 梯度 下 降 法 均 为 MLlib 的 底层 原 语 ， 是 其 他 各 种 机 器 学 习 算 
法 的 基础 。 


D Limited-Memory BFGS (L-BFGS )。 这 是 一 种 优化 算法 ， 且 属于 准 牛顿 算法 家 族 ( Quasi- 
Newton methods ) 的 一 种 。 该 类 算法 是 对 BFGS ( Broyden-Fletcher-Goldfarb-Shanno ) 算法 
的 近似 计算 。 它 所 需 内 存 空间 不 大 ， 用 于 机 器 学 习 中 的 参数 估计 。 








BFGS 模型 是 牛顿 模型 的 近似 ， 是 爬山 法 (hill-climbing optimization techniques ) 的 一 种 。 
疏 山 法 的 特点 是 求解 给 定 函 数 的 平稳 点 (stationary point )。 对 这 类 问题 而 言 ， 最 优化 的 一 
个 必要 条 件 就 是 梯度 为 零 。 


1.14 _ Spark ML 的 优势 
加 州 大 学 伯克利 分 校 AMQ 实验 室 在 Amazon EC2 平台 上 借助 一 系列 实验 以 及 用 户 应 用 的 基 
准 测 试 ， 对 Spark 和 RDD 进行 了 评估 。 
口 使 用 的 算法 : logistic 回归 和 天 -均值 。 
口 用 例 : 首次 迭代 和 多 次 迭代 。 
所 有 的 测试 使 用 m1 .xlarge EC2 节点 。 该 类 节点 包含 4 个 核心 以 及 15GB 内 存 。 存 储 基于 


HDFS, 块 大 小 为 256MB。 与 其 他 库 的 比较 可 见 下 图 。 下 图 对 比 了 Hadoop 和 Spark 的 logistic 回 
归 算 法 在 首次 迭代 和 后 续 迭 代 中 的 性 能 。 




















logistic 回 归 

160 

1 

10 

100 

Ea 日 首次 友 代 
的 后 续 返 代 
加 | 

0 

Hadoop HadoopBM Spark 














下 图 则 用 天 -均值 聚 类 算法 进行 了 相同 的 比较 。 
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总 体 结果 表明 如 下 几 点 。 











口 对 迭代 式 机 器 学 习 和 图 应 用 而 言 ，Spark 的 性 能 比 Hadoop 高 ， 最 多 能 高 出 20 倍 。 加 速 来 
自 于 避免 IO 操作 ， 以 及 将 数据 以 Java 对 象形 式 保存 在 内 存 中 ， 从 而 减少 了 反 序 列 。 

口 用 Spark 编写 的 应 用 有 良好 的 性 能 和 可 扩展 性 。 对 比 Hadoop，Spark 能 为 分 析 报 告 加 速 
40 倍 。 

口 当 节 点 实效 时 ，Spark 仅 需 重建 丢失 的 RDD 分 区 ， 从 而 可 以 迅速 恢复 。 

口 Spark 能 在 5~7 秒 延 迟 内 完成 对 1TB 数据 的 交互 式 查询 。 





i 更 多 信息 参见 http://people.csail.mit.edu/matei/papers/2012/nsdi spark.pdf。 


Spark 和 Hadoop 在 排序 上 的 基准 测评 比较 一 一 2014 年 ，Databricks 团队 参加 了 一 项 SORT 基 
准 测 试 (http://sortbenchmark.org/ )。 该 测试 使 用 的 数据 集 大 小 为 100TB。Hadoop 运行 于 一 个 专属 
数据 中 心 上 ， 而 Spark 则 对 应 EC2 上 的 200 多 个 节点 并 用 HDFS 做 分 布 式 存储 。 


测试 表明 Spark 的 速度 比 Hadoop 快 3 倍 ， 而 占用 的 机 器 数 仅 为 其 110， 如 下 图 所 示 。 
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1.15 在 Google Compute Engine 上 用 Dataproc 构建 Spark 集群 


Cloud Dataproc 是 一 种 运行 于 Google Compute Engine 上 的 Spark 和 Hadoop 服务 。 它 是 一 种 
受 管理 的 服务 。Cloud Dataproc 自动 化 有 助 于 快速 创建 集群 ， 方 便 对 集群 进行 管理 ， 并 在 空闲 时 
自动 关闭 集群 来 节省 费用 。 


本 节 将 学 习 如 何 使 用 Dataproc 服务 来 创建 一 个 Spark 集群 ， 并 在 其 上 运行 示例 。 


请 读者 事先 创建 好 一 个 Google Compute Engine 账号 ， 并 安装 Google Cloud SDK。 





























1.15.1 Hadoop 和 Spark 版 本 
Dataproc 支持 如 下 Hadoop 和 Spark 版 本 ,但 会 随 新 版 本 的 发 布 而 有 所 改变 : 





口 Spark 1.5.2 

口 Hadoop 2.7.1 

口 Pig 0.15.0 

口 Hive 1.2.1 

口 GCS connector 1.4.3-hadoop2 

口 BigQuery connector 0.7.3-hadoop2 





0 更 多 信息 请 参见 https://cloud.google.com/dataproc/docs/concepts/versioning/ 


dataproc-versions。 








下 面 的 步 又 将 在 Google Cloud Console 中 进行 ， 该 用 户 界面 用 于 Spark 集群 的 创建 和 任务 的 





1.15.2 ”创建 集群 


可 在 Cloud Platform Console 中 创建 一 个 Spark 集群 。 选 择 相 应 项 目 ， 并 点 击 Continue 按 
钮 以 打开 Clusters 页 面 。 这 时 便 可 看 到 归属 于 该 项 目的 Cloud Dataproc 集群 ， 如 果 你 已 经 创建 
了 的 话 。 


点 击 Create a cluster 按钮 以 打开 Create a Cloud Dataproc 集群 页 面 ， 如 下 图 所 示 。 
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只 Cloud Dataproc Clusters 





Clusters 


Jobs 


Cloud Dataproc 
Clusters 







ou provision Hadoop clusters and 


Create your first cluster to get starte 


Create a cluster 














点 击 Create a cluster 按钮 之 后 ， 便 会 显示 一 个 详细 的 表格 ， 如 下 图 所 示 。 





Name 


cluster-1 


Zone 


europe-west1-d 4 


Master node 
Contains the YARN Resource Manager, HDFS NameNode, and all job drivers 
Machine type Primary disk size (minimum 10 GB) 


nl-standard-4 (4 vCPU, 15.0 GB ... ” 500 GB 


Worker nodes 


Each contains a YARN NodeManager and a HDFS DataNode. 
The HDFS replication factor is 2. 


Machine type Nodes (minimum 2) 


nl-standard-4 (4 vCPU, 15.0 GB... ” 2 


Primary disk size (minimum 10 GB) Local SSDs (0-4) 
500 GB 0 x375GB 
YARN cores YARN memory 
8 24.0 GB 


Preemptible workers, bucket, network, version, initialization, & access options 


上 图 展示 了 Create a Cloud Dataproc 集群 页 面 ， 且 已 自动 填写 了 一 个 名 为 cluster-1 的 新 
来 看 一 下 下 面 的 屏幕 截图 。 




















Uy 


群 。 
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Clusters 


TS GC 


Clusters 
Name 人 
名 europe- 这 dataproc-2beale6a-ee8d-48fb- Jan 28, 2016， Running 
cluster-1 west1-d 80df-dda5fc46c169-eu 3:26:49 PM 








展开 Workers 、Bucket、Network 、Version 、Imitialization 和 Access Options 界面 ， 便 可 配置 工 
作 节 点 、Staging bucket、 网 络 、 初 始 化 策略 、Cloud Dataproc 镜像 版 本 、 执 行 的 操作 和 集群 的 项 
目 级 访问 策略 。 可 根据 需求 重新 制定 这 些 值 ， 或 默认 即 可 。 

默认 情况 下 ， 集 群 不 包含 工作 节点 ， 但 包含 默认 的 Staging bucket 和 网 络 设 定 。 同 时 也 会 采 
用 最 新 发 布 的 Cloud Dataproc 镜像 版 本 。 这 些 默 认 配 置 均 可 更 改 ， 如 下 图 所 示 。 























Clusters 


GG Delete 
@ cluster-1 


Overview Jobs VM Instances Configuration 





CPU utilization ~ 1hour 6h 12h 1 day 2d 4d 


7d 14d 30d 
CPU 
CPU 
| 
| 
用 
ET [| 
| 
20 | 
10 | | 
0 TS 
人 
Jan 28, 2.45 PM Jan 28, 3:00 PM Jan 28, 3:15 PM Jan 28, 3:32 PM 
加 CPU: 0.327 


Equivalent REST 



































配置 完成 后 ， 点 击 Create 按钮 来 创建 集群 。 集 群 的 名 称 会 显示 在 Cluster 页 面 上 。 当 集群 创 
建 完 毕 后 ， 其 状态 会 更 新 为 Running。 
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点 击 之 前 创建 的 集群 的 名 称 ， 便 可 打开 集群 详情 页 面 。 该 页 面 同 时 有 个 Overview 标签 页 和 | 
CPU utilization 医 | 。 


从 其 他 的 标签 页 可 以 查看 任务 和 实例 等 信息 。 








1.15.3 ”提交 任务 


通过 Cloud Platform UI， 便 可 从 Cloud Platform Console 提交 一 个 任务 到 集群 。 在 该 页 面 选 择 
相应 的 项 目 并 点 击 Continue 按钮 。 若 是 第 一 次 提交 ， 会 显示 如 下 对 话 框 : 























a 


Submit a job 
Cluster 


cluster-1 


Job type 
Spark 学 


Jar files 


file:///usr/lib/spark/lib/spark-examples.jar 


Main class or jar 


org.apache.spark.examples.SparkPi 


Arguments 


1000 








| 


Properties 








| 十 Add item 


点 击 Submit 按钮 来 提交 任务 ， 如 下 图 所 示 : 

















Submit ajob oe.. 


Jobs 





© 1ed4d07f-55fc-45fe-a565-290dcd1978f7 Spark cluster-1 Jan 28, 2016, 3:34:21 PM 23 sec Running 
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要 运行 样 例 任 务 ， 参 照 如 下 步 又 填写 Submit 页 面 。 


(1) 从 集群 列表 中 选择 一 个 集群 名 。 
(2) 设置 Spark 的 Job type。 








(3) 在 Jar files 中 加 入 fie:///usr/lib/spark/lib/spark-examples.jar 。 这 里 ，fe:// 为 Hadoop 
LocalFileSystem 语法 ; Cloud Dataproc 在 创建 集群 时 会 将 /usr/lib/spark/lib/spark-examples.jar 
安装 到 集群 主 节 点 上 。 如 有 需要 ， 用 户 也 可 指定 所 需 jar 文件 的 Cloud Storage 路 径 ( gs://my-bucket/ 











my-jarfile.jar ) 或 一 个 HDFS 路 径 ( hdfs://examples/myexample.jar ) 到 自 定 义 路 径 中 。 
(4) 设置 jar 的 Main class 为 org.apache.spark.examples .SparkPi。 
(5) 设置 Argument 为 单个 参数 1000。 


点 击 Submit 按钮 来 开始 任务 。 
任务 开始 后 便 会 添加 到 Job 列表 中 ， 见 如 下 截图 。 








Jobs 


a GCG clone 


© 1ed4d07f-55fc-45fe-a565-290dcd1978f7 
Jan 28, 2016, 3:34:21 PM 36 sec Running 


Output Configuration 





16/61/28 10:04:29 INFO akka.event.slf4j.Slf4jLogger: Slf4jLogger started 

16/01/28 10:04:29 INFO Remoting: Starting remoting 

16/81/28 10:04:29 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkDriver@10.240.0.4:53682] 
16/81/28 10:04:29 INFO org.spark-project.jetty.server.Server: jetty-8.y.z-SNAPSHOT 

16/61/28 10:04:29 INFO org.spark-project.jetty.server.AbstractConnector: Started SocketConnector@0.0.0.0:33345 
16/61/28 10:04:29 INFO org.spark-project.jetty.server.Server: jetty-8.y.z-SNAPSHOT 

16/81/28 10:04:29 INFO org.spark-project.jetty.server.AbstractConnector: Started SelectChannelConnector@@.0.0.0:4040 


16/81/28 16:64:31 INFO org.apache.hadoop.yarn.client.RMProxy: Connecting to ResourceManager at cluster-1-m/10.240.0.4:8032 
16/61/28 10:04:34 INFO org.apache.hadoop.yarn.client.api.impl.YarnClientImpl: Submitted application application_1453975062220_0001 
[Stage 0:> (0 + 0) / 1000][Stage 0:> 





Line wrapping Equivalent command line 


16/81/28 10:04:31 WARN org.apache.spark.metrics.MetricsSystem: Using default name DAGScheduler for source because spark.app.id is not set. 








任务 结束 后 ， 其 状态 会 发 生 改变 ， 如 下 图 所 示 : 





Jobs 


SMMmEl ll CG 


Jobs 





@ 1ed4d07f-55fc-45fe-a565-290dcd1978f7 Spark cluster-1 Jan 28, 2016, 3:34:21 PM 1 min 1 sec Succeeded 
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不 妨 看 下 此 时 jop 的 输出 。 | 


用 相应 的 Job ID 在 终端 中 执行 命令 。 











在 作者 这 里 ，Job ID 为 1eq4d07f-55fc-45fe-a565-290dcq1978f7，ProjectID 为 rd-spark-1。 
故 相 应 的 命令 为 : 


$ gcloud beta dataproc --project=rd-spark-1 jobs wait led4d07f- 
55fc-45fe-a565-290dcd1978f£7 


其 输出 省 略 后 ) 为 : 


Waiting for job output... 

16/01/28 10:04:29 INFO akka.event.slf4j.Slf4jLogger: Slf4jLogger 
started 

16/01/28 10:04:29 INFO Remoting: Starting remoting 


Submitted application application 1453975062220 0001 
Pi is roughly 3.14157732 


也 可 通过 SSH 登录 Spark 实例 ， 并 以 交互 模式 启动 spark-shell。 


1.16 ”小结 














本 章 讲 述 了 如 何在 本 地 计算 机 以 及 Amazon EC2 的 云端 上 配置 Spark 环境 ， 还 介绍 了 如 何在 
Amazon Elastic Map Reduce ( EMR ) 上 运行 Spark,， 以 及 如 何 通过 Google Compute Engine 的 Spark 
服务 来 创建 一 个 集群 并 运行 示例 程序 。 此 外 还 通过 Scala 交互 式 终端 讨论 了 Spark 编程 模型 的 基 
础 知识 和 API， 并 分 别 用 Scala、Java、R 和 Python 语言 编写 了 一 个 简单 的 Spark 程序 。 最 后 还 对 
比 了 Hadoop 和 Spark 在 不 同 机 器 学 习 算法 以 及 SORT 基准 测试 上 的 性 能 指标 。 


下 一 章 将 介绍 机 器 学 习 相 关 的 基础 数学 。 
































和 选择 正确 的 算法 ,数学 起 着 根本 性 
知识 。 


机 背 


学 习 的 数学 基础 











机 器 学 习 用 户 需 要 对 相关 概念 和 算法 有 一 定 的 理解 。 数 学 是 机 融 学 习 的 重要 方面 之 一 。 我 们 











本 章 和 覆盖 的 内 容 如 下 : 


口 线性 代数 
口 环境 配置 
晶 配置 IntelliJ Scala 环境 
和 配置 命令 行 Scala 环境 
口 域 
口 向 量 
和 问 量 空间 
和 问 量 类 型 
e 密集 向 量 
e 稀 玻 向 量 
e@ Spark 中 的 向 量 
和 问 量 操作 
@ 超 平面 
机 器 学 习 中 的 问 量 
口 矩阵 
四 简介 
ma 矩阵 类 型 
e 密集 矩阵 
e CSC 和 矩阵 ( 列 压缩 矩阵 ) 


























通过 熟悉 编程 语言 的 基本 概念 和 结构 来 学 习 编 程 。 类 似 地 , 我 们 需要 借助 数学 来 理解 机 器 学 习 的 
相关 概念 和 算法 ， 从 而 解决 复杂 的 计算 问题 ， 以 及 理解 众多 计算 机 科学 概念 。 对 于 掌握 理论 概念 
= 作用。 本章 会 介绍 机 器 学 习 相关 的 线性 代数 和 微 积分 的 基础 
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e@ Spark 中 的 和 矩阵 
@ 和 窍 阵 操 作 
四 行列 式 
@ 特征 值 和 特征 向 量 
@ 奇异 值 分 解 
@ 机 器 学 习 中 的 矩阵 
口 函数 
四 定义 
日 滁 数 类 型 
e@ 线性 函数 
e@ 多 项 式 孙 数 
e 人 恒 等 函数 
@ 常数 函数 
e 概率 分 布 函 数 
e 高 斯 函数 
四 函数 组 合 
@ 假设 
@ 梯度 下 降 
上 先 验 概 率 、 似 然 和 后 验 概率 
口 微 积 了 
昌 可 微微 分 
加 积 人 
@ 拉 格 朗 日 乘 子 
口 可 视 化 

















2.1 线性 代数 


线性 代数 研究 对 由 线性 方程 和 变换 组 成 的 系统 求解 。 其 基本 工具 为 向 量 、 和 矩阵 和 行列 式 。 下 
面 会 借助 Breeze 来 分 别 学 习 它 们 。Breeze 是 一 个 用 于 数值 计算 的 线性 代数 库 。 相 应 的 Spark 对 象 
实际 是 对 Breeze 的 封装 ， 并 以 公开 接口 方式 供 调 用 。 这 使 得 即便 Breeze 内 部 有 更 改 ， 仍 然 能 
证 Spark ML 库 的 一 致 性 。 
































2.1.1 配置 Intellij Scala 环境 


编写 Scala 代码 时 ， 最 好 能 借助 如 IntelliJ 这 样 的 IDE， 它 们 提供 了 更 快 的 开发 工具 和 代码 协 
助 。 代 码 自 动 完 成 和 检查 能 加 快 和 简化 编码 和 调试 过 程 ， 从 而 让 你 专注 在 学 习 机 器 学 习 相关 的 数 
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学 这 一 最 终 目标 上 。 





IntelliJ] 2016.3 以 Scala 插件 的 形式 对 Akka、Scala.meta、 内 存 检视 、Scala.js 和 Migrators 提供 
了 支持 。 让 我 们 按 如 下 步 又 来 配置 IntelliJ Scala 的 开发 环境 。 








(1) 点 选 Preferences | Plugins， 确 认 Scala 插件 已 安装 。SBT 是 一 种 Scala 构建 工具 ， 采 用 默 
认 配 置 ， 如 下 图 所 示 。 











Q Plugins 
» Appearance & Behavior Q- SEE All plugins = 
Keymap 
» Editor Sort by:nameY | Scala 
个 Kotlin X Uninstall 
本 EF] 
> Version Control 
TY Build, Execution, Deployment 局 Markdown Version: 2.1.0 
™ Build Tools La Scala, SBT, SSP, HOCON and Play 2 rt. 
E ”| | 站 Maven Integration ee Upp 
Maven [el Vendor 
Ee < 角 Plugin DevKit rh 
ant http://www .jetbrains.com 
SET 四 | 刻 Properties Support 
Plugin homepage 
1 Test Lab 
人 3 全 Scala 淫 http:/www jetbrains.net/confluence/display/SCA/Scala 
A i Settings Repositor 
Coverage 下 | | 前 gs Rep' y 
> Debugger 闲 Subversion Integration 
Required Plugins [el 
pF Languages & Frameworks 鲍 Task Management 
> Tools 六 Terminal 
> Other Settings 





(2) 点 选 File | New |Project from Existing resources | $GIT_REPO/Chapter 02/breeze or$GIT REPOY/ 
Chapter 02/spark。 其 中 ，$GIT REPO 是 读者 克隆 本 书 代码 的 代码 库 路 径 。 


(3) 选择 SBT 来 导入 项 目 ， 如 下 图 所 示 。 











@G@ Import Project 
) Create project from existing sources 


© Import project from external model 


念 Eclipse 
他 Gradle 
I Maven 

















(4) 保留 SBT 默认 配置 ， 并 点 击 Finish。 
(5) 等 待 SBT 从 build.sbt 导入 相关 引用 ， 如 下 图 所 示 。 
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name := "maths-for-ml" 
version := "1.0" 
val sparkVersion = "2.0.0" 


libraryDependencies ++= Seq( 
// other dependencies here 
"org.scalanlp" %% "breeze" % "0.12", 
// native libraries are not included by default. add this if you want them (as of 8.7) 
// native libraries greatly improve performance, but increase jar sizes. 
// It also packages various blas implementations, which have licenses that may or may not 
// be compatible with the Apache License. No GPL code, as best I know. 
"org.scalanlp" %% "breeze-natives" % "0.12", 
// the visualization library is distributed separately as well 
// It depends on LGPL code. 
"org.scalanlp" %% "breeze-viz" % "0.12", 
"org.apache.spark" %s "spark-core" % sparkVersion, 
"org.apache.spark" %% "spark-mllib" % sparkVersion 





resolvers ++= Seq( 
// other resolvers here 
// if you want to use snapshot builds (currently 0@.12-SNAPSHOT), use this. 
"Sonatype Snapshots" at "https://0ss.sonatype.org/content/repositories/snapshots/", 
"Sonatype Releases" at "https://o0ss.sonatype.org/content/repositories/releases/" 


) 


scalaVersion := "2.11.7| 














(6) 最 后 ， 点 击 鼠 标 右键 选择 源 文件 ， 然 后 点 击 Run“Vector”"， 如 下 图 所 示 。 


了 回 vector i 


Optimize Imports OM 
0 Vec p p 网 
scala-2.10 Delete... [ES 
scala-2.11 由 Mark as Plain Text 
Ep | 
bt 
Make Module 'maths-for-ml' 
sbt Compile 'Vector.scala’ 个 踢 F9 
Libraries Run Vector 人 合 R 
散 Debug Vector ^ 人 合 D 


跑 Run Vector with Coverage 

















2.1.2 配置 命令 行 Scala 环境 
可 通过 如 下 步 又 来 配置 一 个 本 地 开发 环境 。 
(1) 进入 Chapter 2 的 根 目 录 ， 然 后 选择 相应 的 文件 夹 。 


$ cd /PATH/spark-ml/Chapter 02/breeze 
另外 ， 也 可 选择 : 


$ cd /PATH/spark-ml/Chapter 02/spark 

















$ sbt compile 
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(3) 运行 编译 后 的 代码 ， 并 选择 相应 的 程序 来 运行 ( 根据 sbt run 是 在 breeze 还 是 spark 目 
录 下 执行 ， 输 出 的 类 名 会 不 同 )。 


$ sbt run 








Multiple main classes detected, select one to run: 


Enter number: 


2.1.3 域 
域 是 数学 中 以 不 同形 式 定 义 的 基本 结构 。 下 面 会 介绍 一 些 常 见 的 基本 类 型 。 
1. 实数 


实数 包含 我 们 所 能 想到 的 任意 数字 。 它 包括 整数 (0、1、2、3 )、 有理数 ( 2/6、0.768 、0.222.…、 
3.4 ) 和 无 理 数 (r、3 的 平方 根 )。 实 数 可 以 是 正 数 、 负 数 或 0。 虚 数 则 是 男 一 种 数 ， 比 如 -1 的 平 
方 根 。 注 意 ， 极 数 ( 无穷大 或 无 穷 小 ) 不 是 实数 。 


2. 复数 


我 们 通常 的 理解 是 ， 一 个 数 的 平方 不 可 能 ， 负数 。 那 如 何 求解 =-93 不 难 想 到 数学 中 有 i 
这 个 概念 能 够 求解 ， 即 x = 3i。 诸 如 i、-i、3i 和 2.27i 这 样 的 数 称 为 虚数 。 一 个 实数 加 一 个 虚数 
构成 了 一 个 复数 。 






























































复数 = 实数 部 + 虚数 部 1i 
下 面 的 例子 展示 了 如 何 使 用 Breeze 进行 复数 的 数学 表示 : 





import breeze.linalg.DenseVector 
import breeze.math.Complex 


val i = Complex.i 

// 加 法 

println((1 + 2* i)+ (2+3* i)) 
// 减法 

println((1 + 2* i)- (2+3* 1)) 
// 除法 

println((5 + 10 * i) / (3 = 4 * 二 )) 
// 乘法 

println{((1 + 2 * 1) * (-3 6 ) 
printlin((1 + 5 * i) * (-3 2 ) 
// 取 反 

printlin(-(1 + 2 * i)) 

// 多 项 加 法 

6 Hl Ge Ty FE ok 0 1 0 (1 0 A 





println(x.sum) 


// 多 项 乘法 
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Val 和 Lt 
PELntlw (LBroducty 
// 多 项 排序 
vark, 2 -= TLSet (tt(S 4 7 yA 
println (x2.sorted) 


对 应 的 结果 如 下 : 


3.0 + 5.0i 

-1.0 + -1.0i 

-1.0 + 2.0i 

-15.0 + 0.0i 

-13.0 + -13.0i 

-1.0 + -2.0i 

19.0 + 27.0i 

-582.0 + 14.0i 

List(1.0 + 3.0i, 5.0 + 7.0i, 13.0 + 17.0i) 





















































3. 向 量 

向 量 是 一 组 有 序数 字 的 数学 表示 。 它 与 集合 类 似 ， 但 是 各 数 是 有 序 的 。 其 中 的 数 均 为 实数 。 
n 维 向 量 在 几何 上 表示 为 n 维 空 间 中 的 一 个 点 。 癌 量 的 起 点 (原点 ) 从 零 开 始 。 

比如 : 


[2, 4, 5, 9, 10] 
[3.14159, 2.718281828, -1.0, 2.0] 
[1.0, 1.1, 2.0] 


4. 向 量 空间 


线性 代数 是 向 量 空间 的 代数 表示 。 实 数 域 或 复数 域 中 的 各 向 量 可 相 加 , 或 通过 与 标量 相 乘 
而 成 倍 变 化 。 


向 量 空间 是 若干 可 相 加 和 相 乘 的 向 量 构成 的 集合 。 在 向 量 空间 中 , 两 个 向 量 可 结合 生成 第 三 
个 向 量 或 其 他 对 象 。 向 量 空间 的 公理 具有 诸多 有 用 的 性 质 。 向 量 空间 中 的 空间 定义 有 助 于 物理 空 
间 属 性 的 学 习 ， 比 如 ,确认 一 个 物体 的 远近 。 三 维 欧 几 里 得 (Euclidean ) 空间 中 的 向 量 集合 便 是 
向 量 空间 的 一 个 例子 。 向 量 空间 上 在 域 忆 上 具有 如 下 性 质 。 




































































口 向 量 加 法 : 表示 为 v+w ， 其 中 vy 和 w 是 空间 中 的 元 素 。 

口 标量 乘法 : 表示 为 w* v， 其 中 wx 是 正中 的 元 素 。 

口 结合 律 : 表示 为 w+ (vt+w)= (utyv)+w， 其 中 wu、v 和 w 均 为 空间 中 的 元 素 。 
口 交换 律 : 表示 为 v+w=w+v。 

口 分 配 律 : 表示 为 a* (vt+w)=a*vy+a*w。 


在 机 需 学 习 中 ， 特 征 对 应 向 量 空间 的 维度 。 











50 第 2 章 机 器 学 习 的 数学 基础 





5. 向 量 类 型 
在 Scala 编程 中 ， 我 们 使 用 Breeze 库 来 表示 向 量 。 向 量 可 表示 为 密集 向 量 和 稀 琉 向 量 。 

















6. Breeze 中 的 向 量 
Breeze 使 用 两 种 基本 的 向 量 类 型 来 表示 上 述 术 两 种 向 量 ， 即 preeze. linalg.DenseVector 


和 breeze. linalg.SparseVectoro 
DenseVector 是 对 支持 数值 运算 的 数组 的 一 种 封装 。 下 面 先 看 下 密集 向 量 的 计算 。 首 先 借 
助 Breeze 创建 一 个 密集 向 量 对 象 ， 然 后 更 新 索引 为 3 的 元 素 的 值 。 











import breeze.linalg.DenseVector 


val Vv = DenseVector(2f, 0f, 3f, 2f, -1f) 
Vv.update(3, 6f) 
println(v) 





其 结果 为 : DenseVector(2.0，0.0，3.0，6.0，-1.0)。 


SparseVector 表示 多 数 元 素 为 0 且 支 持 数值 运算 的 向 量 ， 即 稀 玻 向 量 。 下 面 的 代码 先 借 
Breeze 创建 了 一 个 稀 玻 向 量 ， 然 后 对 其 中 的 各 值 加 1: 








import breeze.linalg.SparseVectorval 


sv:SparseVector[Double] = SparseVector(5)() 

sv(0) = 1 

sv(2) = 3 

sv(4) = 5 

val m:SparseVector [Double] = sv.mapActivePairs((i,x) => x+1) 


println (m) 





其 结果 为 : SparseVector((0,2.0)，(2,4.0)，(4,6.0))。 
7. Spark 中 的 向 量 


Spark MLlib 使 用 Breeze 和 jblas 来 处 理 底层 线性 代数 运算 。 它 自 定 义 了 org.apache.spark. 
mllib.linalg.Vector 经 工厂 模式 来 创建 和 表示 向 量 。 本 地 向 量 的 索引 为 从 0 开始 递增 的 整 
数 。 其 中 各 值 以 双 精 度 表 示 。 本 地 向 量 存储 在 单个 节点 中 ,， 且 不 能 分 发 到 其 他 节点 。Spark MLlib 
支持 密集 型 和 稀 玻 型 两 种 本 地 向 量 ， 它 们 通过 工厂 模式 创建 。 


如 下 代码 片段 展现 了 如 何在 Spark 中 创建 上 述 两 种 向 量 : 


Val dVectorOne: Vector = Vectors.dense(1.0, 0.0, 2.0) 
printlin("dVectorOne:" + dVectorOne) 
// 稀疏 向 量 (1.0，0.0，2.0，3.0) 对 应 非 震 条 目 
Val sVectorOne: 0 = Vectors.sparse(4, Array (0, 2,3), 
Array (1.0, 2.0, 0)) 
// 创建 一 个 稀 距 向 量 ( 0， 0.0，2.0，2.0) 并 指定 其 非 零 条 目 
Val sVectorTwo: Vector = Vectors.sparse(4, Seq((0, 1.0), (2, 2.0), (3, 3.0))) 
































2.1 线性 代数 51 





对 应 的 结果 如 下 : 


dVectorone: [1.0,0.0,2.0] 
sVectorone: (4,[0,2,3],[1.0,2.0,3.0]) 
svVvectorTwo: (4, [0,2,3],[1.0,2.0,3.0]) 


Spark 提供 了 多 种 方式 来 访问 和 查看 向 量 数 值 ， 比 如 : 


Val sVectorOneMax = sVectorOne.argmax 

val sVectorOneNumNonZeros = sVectorOne.numNonzeros 
Val sVectorOneSize = sVectorOne.size 

Val sVectorOneArray = sVectorOne.toArray 

Val sVectorOneJson = sVectorOne.toJson 
println("sVectorOneMax:" + SsVectorOneMax) 
println("sVectorOneNumNonZeros:" + sVectorOneNumNonZeros) 
println("sVectorOneSize:" + sVectorOneSize) 
println("sVectorOneArray:" + SsVectorOneArray) 
println("sVectorOneJson:" + sVectorOneJson) 

val dVectorOneToSparse = dVectorOne.toSparse 


其 输出 如 下 : 


sVectorOneMax:3 

sVectorOneNumNonZeros:3 

sVectorOoneSize:4 

sVectorOneArray: [D@38684d54 
sVectorOneJson:{"type":0,"size":4,"indices":[0,2,3],"values": [1.0,2.0,3.0]} 
dVectorOneToSparse: (3,[0,2],[1.0,2.0]) 


8. 向 量 操作 
向 量 可 两 两 相 加 、 相 减 或 与 标量 相 乘 。 其 他 操作 包括 求 平均 值 、 正 则 化 、 比 较 和 几何 表示 。 
口 加 法 : 下 面 的 代码 展示 了 两 个 向 量 进 行 逐 元 素 相 加 。 


// 向 量 元 素 相 加 
val v1 = DenseVector(3, 7, 8.1, 4, 5) 
val v2 = DenseVector(1, 9, 3, 2.3 
def add(): Unit = { 

println(vl + v2) 
} 





该 代码 的 结果 为 : DensevVector(4.0，16.0，11.1，6.3，13.0)。 
口 乘法 和 点 乘 : 这 种 代数 运算 以 等 长 度 的 两 个 数组 为 输入 ， 输 出 一 个 数值 。 代 数 上 ， 它 是 
两 个 数组 的 乘积 之 和 。 其 数学 表示 如 下 。 
Vy a 


lal 6 


BA” 


a*b=|alx|blxcos(O 或 a :b=axxbxt+ayxby 
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import breeze.linalg.{DenseVector, SparseVector} 

val a = DenseVector(0.56390, 0.36231, 0.14601, 0.60294, 0.14535) 
val b = DenseVector(0.15951, 0.83671, 0.56002, 0.57797, 0.54450) 
printlin(a.t * b) 

printlin(a dot b) 


对 应 的 结果 为 : 
0.9024889161, 0.9024889161 
又 如 : 


import breeze.linalg.{DenseVector, SparseVector} 

Val sva = SparseVector(0.56390,0.36231,0.14601,0.60294,0.14535) 
val svb = SparseVector(0.15951,0.83671,0.56002,0.57797,0.54450) 
println(sva.t * svb) 

println(sva dot svb) 


对 应 的 结果 为 : 
0.9024889161, 0.9024889161 

口 求 平均 值 : 该 操作 返回 第 一 个 元 素 个 数 不 为 1 的 维度 对 应 的 各 个 元 素 的 平均 值 。 其 数学 
表示 为 : 


import breeze.linalg.{DenseVector, SparseVector} 
import breeze.stats.mean 

val mean = mean(DenseVector(0.0,1.0,2.0)) 
println (mean) 


对 应 的 输出 为 : 


1.0 
又 如 : 


import breeze.linalg.{DenseVector, SparseVector} 
import breeze.stats.mean 

val svm = mean(SparseVector(0.0,1.0,2.0)) 

val svml = mean(SparseVector(0.0,3.0)) 
printin(svm, svml) 


对 应 的 输出 为 : 


(1.0,1.5) 


口 正则 化 : 每 个 向 量 都 有 大 小 ， 它 通过 毕 达 哥 拉 斯 定 =sqrtoc + 六 +2。 该 大 小 
是 从 原点 到 向 量 对 应 点 的 距离 。 正 则 向 量 的 大 小 为 1。 向 量 正则 化 表示 对 向 量 进行 改变 ， 
以 使 得 其 长 度 为 1, 但 保持 其 从 原点 出 发 所 指向 的 方向 不 变 。 因 而 , 正则 向 量 是 方向 与 原 
向 量 相 同 ， 但 范 数 (norm， 即 长 度 ) 为 1 的 向 量 。 它 表示 为 总 并 定义 如 下 : 



























































图 
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加 








其 中 ,， |X| 表 示 关 的 范 数 。 该 向 量 也 称 为 单位 向 量 。 


import breeze.linalg.{norm, DenseVector, SparseVector} 

import breeze.stats.mean 

val V = DenseVector(-0.4326, -1.6656, 0.1253, 0.2877, -1.1465) 
val nm = norm(v, 1) 


// 正则 化 向 量 ， 使 其 范 数 为 1 .0 


val nmlize = normalize(v) 


// 最 后 检查 下 正则 向 量 的 范 数 是 否 为 1 .0 


println(norm(nmlize)) 
应 的 输出 如 下 : 

Norm(of dense vector) = 3.6577 

Normalized vector is = DenseVector(-0.2068389122442966, 
-0.7963728438143791, 0.05990965257561341, 0.1375579173663526, 


-0.5481757117154094) 


Norm(of normalized vector) = 0.9999999999999999 











输出 向 量 中 的 最 大 和 最 小 元 素 : 


import breeze.1inalg. 

val v1 = DenseVector(2, 0, 3, 2, -1) 
println(argmin (v1)) 
println(argmax (vil 
println (min (v1)) 
println (max(v1)) 


对 应 的 结果 为 : 


比较 : 比较 两 个 向 量 的 大 小 。 


import breeze.1inalg. 
val al = DenseVector(1, 2, 3) 


val bl = DenseVector(1, 4, 1) 
println(( 人 i 
println(( SL} 
Drintln((al :>= b1)) 
println(( :< Ne 
printin(( :TY 
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对 应 的 结果 为 : “ 


BitVector(0) 
BitVector(0, 1) 
BitVector (0，2) 
BitVector (1) 
BitVector (2) 


口 向 量 的 几何 表示 〈 见 下 图 )。 
































六 
| 











9. 超 平面 
当 n 大 于 3 时 ,实数 向 量 难以 可 视 化 。 可 以 用 常见 的 概念 ， 如 线 和 面 ,来 ( 组合 ) 表示 任意 
n 维 空间 。 从 向 量 v 开 始 ， 经 过 向 量 w 代表 的 点 了 所 对 应 的 线条 工 可 表示 为 : 
L={utty|lteR} 
已 知 两 个 非 零 向 量 z 和 v», 若 它们 不 在 一 条 线 上 , 上 且 其 中 一 个 向 量 不 为 另 一 向 量 的 标量 倍数 ， 
则 它们 确定 一 个 平面 。 两 个 向 量 的 加 法 通过 将 向 量 某 一 端 首尾 相连 构成 的 三 角形 来 实现 。 如 果 z 
和 vv 在 一 个 平面 内 ， 则 其 和 也 在 同一 平面 内 。 由 两 个 向 量 w 和 表示 的 平面 可 定义 为 : 
{P+sut+ty|s,teR} 


进而 ,一 个 维 平面 可 由 一 个 由 向 量 x 构成 的 集合 了 和 表示 ， 其 中 i<n: 






























































(P+X,X= Nv,|h eR) 
1 


10. 机 器 学 习 中 的 向 量 


在 机 融 学 习 中 ,特征 用 n 维 向 量 表示 。 在 机 带 学 习 中 ,数据 对 象 需要 以 数值 形式 表示 ， 以 便 
进行 处 理 和 统计 分 析 ， 比 如 用 像素 向 量 来 表示 图 像 。 














2.1.4 ”矩阵 
F 域 中 的 和 矩阵 是 指 由 五 域 中 的 元 素 构成 的 二 维 数组 。 比 如 实数 域 中 的 一 个 矩阵 可 为 : 
































Qz 其 结果 为 符合 比较 条 件 的 各 对 应 元 素 的 索引 。 一 一 译 者 注 
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1 2 3 
10 20 30 


上 述 和 矩阵 有 2 行 3 列 , 被 称 为 2x3 和 矩阵 。 人 们 通常 用 数字 来 指 代行 和 列 。 行 1 是 (123), 行 
2 是 (10 20 30); 列 1 是 (1 10), 列 2 是 (2 20), 列 3 是 (3 30)。 通常 ,一 个 m 行 n 列 的 矩阵 称 为 
m xn 和 矩阵 。 对 于 给 定 和 矩阵 4， 其 元 素 (i, 让 定义 为 第 i 行 第 j 列 的 元 素 ， 并 通过 4 或 4 来 表示 。 
后 续 内 容 将 会 经 常 采用 Python 风格 ， 即 4[i, 用。 行 i 是 向 量 (4[i, 0], ALi, 1], A[i, 2],…, 4[2 m-1])， 
列 7 则 是 疝 量 (4[0, 7], 4[1, 7 4[2, 7]…, A[n-1, 由)。 


1. 矩阵 类 型 


后 续 Scala 代码 将 使 用 Breeze 库 来 表示 矩阵。 和 矩阵 可 表示 为 密集 矩阵 或 CSC ( 列 压缩 稀 玻 ) 
和 矩阵 。 


口 密集 矩 阵 : 密集 矩阵 通过 调用 构造 函数 来 创建 。 其 元 素 可 被 访问 或 更 新 。 其 以 列 优先 
( column major ) 模式 存储 ， 且 能 转 为 行 优先 模式 。 
val a = DenseMatrix((1,2), (3,4)) 


printlin("a : n" + a) 
val m = DenseMatrix.zeros[Int] (5,5) 

























































































// 各 列 可 以 Dense Vector 方式 访问 ， 而 行 则 可 作为 Dense Matrix 来 访问 


println( "m.rows :" + m.rows + " m.cols : " + m.cols) 
mais ly} 
printlin("m : n" + m) 

口 矩阵 转 置 : 矩阵 转 置 ( transposition ) 是 指 将 矩阵 的 行 和 列 进行 调换 。 对 于 一 个 Px0O 和 矩 
阵 ， 其 转 置 MT 是 一 个 OxP 和 矩阵 ， 其 中 MT)= Mi;， 对 于 任意 ieP,je 0。 向 量 的 转 置 则 
生成 一 个 行 矩 阵 。 

m(4,::) := DenseVector (5,5,5,5,5) .七 
println(m) 


上 述 代 码 的 输出 为 : 





已 : 

1 2 

3 4 

Created a 5X5 matrix 
0 0 0 0 0 

0 0 0 0 0 

0 0 0 0 0 

0 0 0 0 0 

0 0 0 0 0 

m.rows :5 m.cols : 5 


First Column of m : 
DenseVector(0, 0, 0, 0, 0) 
Assigned 5,5,5,5,5 to last row of m. 





山口 口 口 口 
胃口 口 口 口 
胃口 口 口 口 
胃口 口 口 口 
UOoOoOoopo 


口 CSC 矩阵: 即 列 压缩 稀疏 (compressed sparse columns ) 阜 阵 。 其 每 一 列 对 应 一 个 稀 玻 向 
量 。CSC 矩阵 支持 所 有 矩阵 运算 ， 并 通过 Builder 来 创建 。 
val builder = new CSCMatrix.Builder[Double] (rows=10, cols=10) 
builder.add (3,4, 1.0) 
// 等 等 
val myMatrix = builder.result() 


2. Spark 中 的 矩阵 


Spark 中 的 本 地 矩阵 的 行列 索引 为 整数 ， 而 元 素 值 为 双 精 度 ( double ) 型 。 所 有 值 均 存储 在 
单个 节点 上 。MLlib 支持 如 下 和 矩阵 类 型 。 


口 密集 矩阵 : 其 各 元 素 以 列 优先 顺序 存储 在 单个 双 精 度数 组 中 。 


D 稀疏 和 矩 阵 : 其 各 非 零 元 素 以 列 优先 顺序 存储 为 CSC 格式 。 比 如 ， 如 下 大 小 为 3,2) 的 密集 
矩阵 存储 在 一 维 数 组 [2.0，3.0，4.0，1.0，4.0，5.0] 中 : 








心 心 
ooo 
w Fw 
ooo 


以 下 例子 说 明了 这 两 种 矩阵 的 创建 : 


val dMatrix: Matrix = Matrices.dense(2, 2, Array(1.0, 2.0, 3.0, 4.0)) 
println("dMatrix: \n" + dMatrix) 


val sMatrixOne: Matrix = Matrices.sparse(3, 2, Array (0, 1, 3), 
Array (Or rh) Array ty .6% 7)) 
println("sMatrixOne: \n" + sMatrixOne) 


val sMatrixTwo: Matrix = Matrices.sparse(3, 2, Array (0, 1, 3), 
Array. (0 Ti, 2);7 Array(S 6., 77) 
printlin("sMatrixTwo: \n" + sMatrixTwo) 


其 输出 如 下 : 


[infol Running linalg.matrix.SparkMatrix 
dMatrix: 

1.0 3.0 

2.0 4.0 

sMatrixOne: 

3 x 2 CSCMatrix 

(0,0) 5.0 
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(2,1) 6.0 

(Lil 7 
sMatrixTwo: 

3 x 2 CSscMatrix 


(0,0) 5.0 
(1,1) 6.0 交通 
(Rl) ‘Fd 

3. Spark 中 的 分 布 式 矩 阵 


分 布 式 和 矩阵 的 行列 索引 为 长 整数 (long ) 型 ， 元 素 值 为 双 精 度 型 ， 且 分 布 式 地 存储 在 一 个 或 
多 个 RDD 上 。Spark 中 包含 了 四 类 分 布 式 和 矩阵 ， 它 们 均 为 DistriputedMatrix 的 子 类 ， 如 下 
图 所 示 。 











scala.Serializable 


org.apache.spark.millib.linalg.distributed 
DistributedMatrix 


口 RowMatrix: 该 类 矩阵 是 以 行 优先 模式 存储 的 分 布 式 矩阵 , 但 没有 有 意义 的 行 索引 。( 在 
行 优 先 的 矩阵 里 , 每 一 行 的 相 邻 元 素 在 内 存 中 也 是 相 邻 存 储 的 。) RowMatrix 实现 为 其 各 
行 的 一 个 RDD。 每 一 行 是 一 个 本 地 向 量 。 其 列 的 数目 必须 小 于 等 于 2” ,以 便 单 个 本 地 向 
量 可 同 驱 动 程序 通信 ， 也 使 其 能 在 单个 节点 上 保存 或 进行 操作 。 


如 下 代码 演示 了 如 何 从 Vector 类 创建 一 个 行 矩 阵 〈 密 集 型 和 稀 琉 型 ): 






IndexedRowMatrix CoodinateMatrix 


















































val spConfig = (new SparkConf) .setMaster ("local") 
.SetAppName ("SparkApp") 

val sc = new SparkContext (spConfig) 

val denseData = Seql( 





Vectors.dense(0.0, 1.0, 2.1) 

Vectors.dense(3.0, 2.0, 4.0) 

Vectors.dense(5.0, 7.0, 8.0) 

Vectors.dense(9.0, 0.0, 1.1) 

) 
val sparseData = Sed( 

Vectors.sparse(3, Seq((1, 1.0), (2, 2.1))), 
Vectors.sparse(3, Seq((0, 3.0), (1, 2.0), (2, 4.0))) 
Vectors.sparse(3, Seq((0, 5.0), (1, 7.0), (2, 8.0))) 
Vectors.sparse(3, Seq((0; 9%.0)3 (271.0))) 
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val denseMat = new RowMatrix(sc.parallelize(denseData, 2)) 
val sparseMat = new RowMatrix(sc.parallelize(sparseData, 2)) 


printlin("Dense Matrix - Num of Rows :" + denseMat .numRows () ) 
println("Dense Matrix - Num of Cols:" + denseMat .numCols()) 
println("Sparse Matrix - Num of Rows :" + SparseMat .numRows () ) 
println("Sparse Matrix - Num of Cols:" + SparseMat .numCols()) 
SC.Stop () 

其 输出 如 下 : 


Using Spark's default log4j profile: org/apache/spark/1og4Jj defaults.properties 
16/01/27 04:51:59 INFO SparkContext: Running Spark version 1.6.0 

Dense Matrix - Num of Rows :4 

Dense Matrix - Num of Cols:3 

Sparse Matrix - Num of Rows :4 

Sparse Matrix - Num of Cols :3 


IndexedRowMatrix: 与 RowMatrix 类 似 ， 但 以 行 而 非 列 为 索引 。 该 索引 可 用 于 检 


索 行 以 及 执行 连接 ( join ) 操作 。 如 下 代码 演示 了 创建 一 个 带 相应 行 索引 的 4x3 的 
IndexedMatrix 方法 。 





val data = Seql( 


(0L, Vectors.dense(0.0, 1.0, 2.0)), 
(1L, Vectors.dense(3.0, 4.0, 5.0)), 
(3L, Vectors.dense(9.0, 0.0, 1.0)) 
) .map (X => IndexedRow(x._1, x._2)) 
val indexedRows: RDD[IndexedRow] = sc.parallelize(data, 2) 
val indexedRowsMat = new IndexedRowMatrix(indexedRows) 
println("Indexed Row Matrix - No of Rows: " + indexedRowsMat .numRows ()) 
printlin("Indexed Row Matrix - No of Cols: " + indexedRowsMat .numCols () 


上 述 代 码 的 输出 如 下 : 


Indexed Row Matrix - No of Rows: 4 
Indexed Row Matrix - No of Cols: 3 


CoordinateMatrix: 该 类 和 矩阵 以 坐标 表 (COO ，coordinated list ) 格式 将 各 元 素 分 布 式 
地 存储 在 一 个 RDD 中 。 


COO 保存 了 一 个 (row，colummn，value) 三 元 组 的 列表 。 各 元 素 依次 按 行 索引 和 列 索 引 
排序 过 , 以 提升 随机 访问 性 能 。 当 需要 增 量 式 增删 来 构建 一 个 矩阵 时 , 这 种 格式 很 有 优势 。 








val entries = sc.parallelize(Seql( 


(0, 0, 1.0), 
(05 La 2 0). 
(Cp ep 52380); 
C1 7 0 
(2 2 -S50 
(Qne3p O00) 
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(C35 -0% TAO 

(8 Bs 0500 

(4, 1, 9.0)), 3) .map { case (i, j, value) => 

MatrixEntry (i, j, value) 

} 

val coordinateMat = new CoordinateMatrix(entries) 
println("Coordinate Matrix - No of Rows: " + CoordinateMat .numRows ()) 
println("Coordinate Matrix - No of Cols: " + CoordinateMat .numCols()) 
其 输出 如 下 : 


Coordinate Matrix - No of Rows: 5 
Coordinate - No of Cols: 4 


4. 矩阵 操作 
和 矩阵 支持 的 操作 有 多 种 。 


口 按 元 素 加 法 。 已 知 两 个 矩阵 & 和 5， 将 它们 相 加 ，(a + 5b)， 意 味 着 将 两 个 矩阵 相同 位 置 好 
的 元 素 相 加 。 


在 Breeze 中 代码 为 : 





val a = DenseMatrix((1,2), (3,4)) 
val b = DenseMatrix( (2,2), (2,2)) 
val C=a+b 

println("a: \n" + a) 

println("b: \n" + b) 

println("a + b : \n" + c) 


其 输出 为 : 


OO ODLDTOoOPD 
MD 


口 按 元 素 乘 法 。 即 将 两 个 矩阵 各 相同 位 置 上 的 元 素 相 乘 。 
在 Breeze 中 代码 为 : 
= 


val d = axb 
println("Dot product a*b : \n" + d) 


其 输出 为 : 
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Dot product a*b : 
6 6 
14 14 


口 按 元 素 比 较 。 比 较 两 个 矩阵 相同 位 置 上 的 元 素 。 
在 Breeze 中 代码 为 : 


val SB 
println("a 





其 输出 为 : 


a :< b 
false false 
false false 


口 原 位 加 法 。 这 意味 着 给 矩阵 的 各 个 元 素 增 加 某 个 数值 ( 比如 1 )。 
在 Breeze 中 代码 为 : 


val e = a :+= 1 
printlin("Inplace Addition : a :+= 1 \n" + e) 


其 输出 为 : 
Inplace Addition : a :+= 1 
2 3 
4 5 
口 求 元 素 和 。 这 意味 着 将 矩阵 的 各 个 元 素 相 加 。 
在 Breeze 中 代码 为 : 
val sumA = sum(a) 
println("sum(a): \n" + SumA) 
其 输出 为 : 
sum(a): 
14 
口 求 元 素 最 大 值 。 寻 找 和 矩阵 中 值 最 大 的 元 素 : 
在 Breeze 中 代码 为 : 
a.max 


println("a.max: \n" + a.max) 
其 输出 为 : 


a.max: 
5 
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口 寻找 上 述 最 大 值 元 素 的 位 置 。 
在 Breeze 中 代码 为 : 


println("argmax(a):\n" + argmax(a)) 


其 输出 为 : 





argmax(a): 
(1,1) 


口 向 上 取 整 ( ceiling )。 找 寻 比 元 素 大 的 最 小 整数 。 
在 Breeze 中 代码 为 : 


Va gg ©. DenseMatii((la ly, L322)ps "(3:90 3685)) 
println("g: \n" + 9g) 

val gCeil = ceil(g) 

printlin("ceil(g) \n " + gCeil) 








其 输出 为 : 
g: 
1.1 1.2 
k 
ceil(g) 
2 
4.0 4.0 
口 向 下 取 整 ( floor )。 找 寻 比 元 素 小 的 最 大 整数 。 
在 Breeze 中 代码 为 : 


val gFloor =floor(g) 


println("floor(g) \n" + gFloor) 


其 输出 为 : 


5. 行列 式 


tr(M) 表 示 和 矩 阵 M 的 迹 (trace )。 它 是 主 对 角 线 上 各 元 素 的 和 。 迹 通常 用 来 衡量 矩阵 的 大 小 。 
行列 式 det(M) 则 为 对 角 线 上 各 元 素 的 乘积 ， 如 下 所 示 。 


b 
dal | 
cd 
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行列 式 主要 用 于 线性 方程 系统 中 ; 它 能 表示 各 列 是 否 线性 相关 ， 并 有 助 于 找 出 和 矩阵 的 逆 
( inverse )。 对 于 大 和 抢 阵 而 言 ， 其 行列 式 由 拉 普 拉 斯 展开 式 (Laplace expansion ) 求 出 。 




















val detm: Matrix = Matrices.dense(3, 3, Array(1.0, 3.0, 5.0, 2.0, 4.0, 6.0, 2.0, 
0 7 SO) 
print (det (detm)) 


6. 特征 值 和 特征 向 量 
Ax=b 是 源 于 静态 问题 的 一 个 线性 方程 。 特 征 值 ( eigenvalue ) 则 用 于 求解 动态 问题 。 假设 4 
是 一 个 矩阵 且 x 为 一 个 向 量 ， 下 面 考虑 如 何 求解 线性 代数 中 的 新 方程 ，4x = Ax。 


当 4 乘 以 x 时 ,向 量 x 改变 了 它 的 方向 。 但 存在 若干 与 Ax 同方 向 的 向 量 ， 即 特征 向 量 
( eigenvector )， 它 们 满足 如 下 等 式 : 



































Ax=/x 


在 上 述 等 式 中 ,向 量 4x 等 于 14 乘 以 向 量 x, 4 被 称 为 特征 值 。 特 征 值 4 表明 向 量 的 方向 是 反 转 还 
是 保持 不 变 。 




















Ax= 信 还 表明 detd - 力 =0， 其 中 了 为 单位 矩阵 (identity matrix )。 这 确定 了 特征 值 的 个 数 n。 
特征 值 问题 定义 如 下 : 


4x=4x 
Ax—Ax=0 
Ax—/Ix=0 
(4-ADNDx=0 


如 果 x 非 零 ， 上述 方 程 仅 当 4 -加 =0 时 有 一 个 解 。 通 过 该 方程 ,我们 可 找到 各 特征 值 : 








val A = DenseMatrix((9.0,0.0,0.0), (0.0,82.0,0.0),(0.0,0.0,25.0)) 
val es = eigSym(A) 

val lambda = es.eigenvalues 

val evs = es.eigenvectors 

printlin("lambda is : " + lambda) 

printlin("evs is : " + evs) 


上 述 代码 的 结果 如 下 : 


lambda is : DenseVector(9.0, 25.0, 82.0) 
evs is : 1.0 0.0 0.0 

0.0 0.0 1.0 

0.0 1.0 -0.0 


7. 奇异 值 分 解 


矩阵 MM 的 奇异 值 分 解 (SVD，singular value decomposition ) 定义 为 : m xn( 实数 或 复数 ) 
是 形 如 UZV* 的 因 式 分 解 , 其 中 UU 为 一 个 mxR 算 阵 , 区 是 一 个 RxR 的 矩形 对 角 和 矩阵 ( rectangular 
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diagonal matrix ) 上 且 对 角 线 上 无 负 实数 ， 亚 是 一 个 zxzr 丁 和 矩阵 (unitary matrix ), 7 等 于 和 矩阵 M 的 秩 。 
互 的 各 对 角 元 素 马 ,被 称 为 M 的 奇异 值 , UV 和 本 的 列 则 分 别称 为 M 的 左 奇异 向 量 和 右 奇异 


向 量 。 


如 下 是 Apache Spark 中 SVD 的 一 个 例子 : 
































package linalg.svd 


import org.apache.spark.{SparkConf, SparkContext} 
import org.apache.spark.mllib.linalg.distributed.RowMatrix 
import org.apache.spark.mllib.linalg.{ 

Matrix, SingularValueDecomposition, Vector, Vectors 


} 


object SparkSVvDExampleOne { 
def main(args: Array[lString]) { 
val denseData = Seql( 


Vectors.dense(0.0, 1.0, 2.0, 1.0, 5.0, 3.3, 2.1), 
Vectorsdense(3.0; 4i0% a0 3 M43 351;.3.3)5 
Vectors.dense(6.0, 7.0, 8.0, 2.1, 6.0, 6.7, 6.8), 
Vectors.dense(9.0, 0.0, 1.0, 3.4, 4.3, 1.0, 1.0) 
) 
val spConfig = (new SparkConf) .setMaster ("local") .setAppName ("SparkSVDDemo") 


val sc = new SparkContext (spConfig) 
val mat: RowMatrix = new RowMatrix(sc.parallelize(denseData, 2)) 
// 计算 前 20 个 奇异 值 和 对 应 的 夺 异 向 量 
val svd: SingularValueDecomposition[RowMatrix, Matrix] = 
mat.computeSVvD(7, computeU = true) 
val U: RowMatrix = svd.U // U 因子 为 一 个 RowMatrix 
s: Vector = svd.s // 各 奇异 值 保 存在 一 个 本 地 密集 向 量 中 
val V: Matrix = svd.V // V 因子 为 一 个 本 地 密集 矩阵 
println (Uy: Nn EU) 








println("s: \n" + S) 
println("V: \n" + V) 
sc.stop() 


} 
8. 机 器 学 习 中 的 矩 阵 


在 实际 的 机 器 学 习 任 务 中 ， 如 人 脸 或 文字 识别 、 医 学 成 像 、 主 成 分 分 析 和 数值 精度 等 ,矩阵 
作为 数学 对 象 来 表示 图 像 和 数据 集 。 


这 里 以 特征 分 解 为 例 。 通 过 分 解 为 构成 部 件 或 找寻 其 一 般 属 性 , 能 更 好 地 理解 许多 数学 对 象 。 


如 同 整数 可 分 解 为 质 因数 , 矩阵 分 解 称 为 特征 分 解 。 后 者 将 一 个 矩阵 分 解 为 若干 特征 向 量 和 
特征 值 。 


和 矩阵 4 的 特征 向 量 ”满足 与 4 的 乘 仅 仅 改变 ”的 倍数 ， 即 : 











人 如 =4y 
标量 4 被 称 为 该 特征 向 量 的 特征 值 。4 的 特征 分 解 表 示 为 : 
A=Vdiag(WV -1 

矩阵 的 特征 分 解 和 与 矩阵 本 身 的 许多 特质 对 应 。 当 且 仅 当 某 个 矩阵 的 任意 特征 值 都 为 0 时 ， 
该 矩阵 是 奇异 的 。 实数 对 称 和 矩阵 的 特征 分 解 可 用 于 二 次 表达 式 的 优化 和 其 他 问题 。 特征 癌 量 和 特 
征 值 也 用 于 主 成 分 分 析 中 。 

如 下 例子 展示 了 如 何 使 用 一 个 DenseMatrix 来 求 特征 值 和 特征 向 量 : 

// 数据 


val msData = DenseMatrix!( 














(2 2 A (OS OT (2 (LQ) 3 ) 
(D3 (2 Od 6G) LO lly. (red,l6) CLO 
def main(args: Array[String]): Unit = { 
val pca = breeze.linalg.princomp (msData) 
print ("Center" , msData(*,::) - pca.center) 


// 数据 的 协 方差 矩阵 

print ("covariance matrix", pca.covmat) 

// 该 协 方差 矩阵 排 好 序 的 特征 值 

print ("eigen values",pca.eigenvalues) 

// 特征 向 量 

print ("eigen vectors",pca.loadings) 
print (pca.scores) 


} 


其 结果 如 下 : 
eigen values = DenseVector(1.2840277121727839, 0.04908339893832732) 
eigen vectors = -0.6778733985280118 -0.735178655544408 


2.1.5 “函数 
要 定义 一 个 如 函数 这 样 的 数学 对 象 ， 需 要 先 明白 什么 是 集合 (set )。 


集合 是 若干 无 序 对象 的 集 ， 比 如 8 = {-4, 4, -3, 3, -2, 2, -1, 1, 0} 。 如 果 集 合 5S 并非 无 限 ， 则 
用 |S| 来 表示 其 元 素 的 个 数 ， 即 集合 的 势 (cardinality )。 如果 4 和 BB 都 是 有 限 集合 ,， 则 有 |4 一 B|= 
I4| 一 |3B|， 即 笛 卡 儿 积 ( Cartesian product )。 


对 于 4 中 的 每 一 个 输入 元 素 , 一 个 函数 会 将 其 对 应 到 男 一 集合 B 中 的 某 一 个 输出 元 素 。4 称 
为 函数 的 定义 域 (domain )，B 则 称 为 值 域 ( codomain )。 函 数 是 和 若干 (x,y) 对 的 集合 ， 其 中 x 各 不 
相同 。 


比如 ， 定 义 域 为 {1, 2, 3,…} 的 函数 ， 其 两 倍 输入 操作 对 应 的 集合 为 {(1, 2), (2, 4),(3, 6), …} 
又 如 ,输入 变量 数 为 2 日 定义 域 均 为 {1,2,3,…} 的 函数 ， 其 对 应 的 集合 为 {((1,1),1),((1,2),2), …， 
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(C2,1),2),((2,2),4),((2,3),6),…",((3,1),3),((3,2),6),((3,3),9),…*}o 


给 定 输入 对 应 的 输出 称 为 该 输入 的 映射 。g 在 函数 /上 的 映射 表示 为 hq)。 如 果 fq) = s， 则 
称 g 经 /映射 为 x ， 写 作 4q 一 s。 包 含 所 有 输出 的 集合 称 为 值 域 。 


可 用 fD 一 来 表示 函数 /是 一 个 定义 域 和 值 域 分 别 为 D 和 三 的 函数 。 
1. 函数 类 型 

口 过 程 与 函数 

过 程 是 对 计算 的 描述 ， 给 定 一 个 输入 ， 生 成 一 个 输出 。 

函数 或 计算 问题 并 不 表明 如 何 从 给 定 输入 计算 相应 输出 。 

对 于 同样 的 输入 输出 ， 可 能 有 多 种 计算 方法 。 

在 一 个 计算 问题 里 ， 同 一 个 输入 可 能 对 应 多 个 输出 。 


我 们 借助 Breeze 库 来 编写 各 种 过 程 ; 通常 它们 被 称 为 函数 ,但 这 里 用 该 词 表示 特定 的 数学 
对 象 。 


口 单 射 函数 ( one to one function ) 


大 DD 一 下 是 单 射 ， 如 果 ftx)= 9) 意味 着 x=y， 也 就 是 说 x 和 yy 都 位 于 DD 中 。 


















































口 满 射 函 数 ( onto function ) 
f£D 一 是 满 射 ， 如果 对 于 的 每 一 个 元 素 z， 在 DD 中 存在 一 个 元 素 a 使 得 fa)=z 成 立 。 
若 一 个 函数 同时 单 射 且 满 射 ， 则 该 函数 为 可 逆 函 数 。 


口 线性 函数 : 线性 函数 的 图 形 表 示 是 一 条 直线 ( 见 下 图 同 其 定义 形 如 z=Jo =a+px。 线 
性 函数 只 有 一 个 自 变 量 和 一 个 因 变 量 。 自 变量 为 x， 因 变量 为 z。 
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口 多 项 式 函 数 : 该 类 函数 仅 涉 及 x 的 非 负 整数 指数 ， 比 如 平方 、 三 次 方 、 四 次 方 等 。 我 们 可 
给 出 多 项 式 函 数 的 一 般 定义 和 它 的 阶 。 一 个 n 阶 多 项 式 可 定义 为 f= ax + anix™ 十 和 十 
qx +aix+ao， 其 中 4a 的 值 均 为 实数 ， 也 称 为 多 项 式 的 系数 。 


比如 , fr)=4x 一 3x*+2( 见 下 图 ); 








3.0 才 


2.5 1 


2.0 1 











T T T 
—0.4 —0.2 0.0 0.2 0.4 0.6 0.8 1.0 


























口 恒 等 函 数 : 对 于 任意 定义 域 D，i4D: D 一 D 总 是 将 每 个 定义 域 元 素 4 映射 为 4 本 身 ( 见 
下 图 )。 





口 常数 函数 : 一 类 特殊 的 函数 ， 其 图 形 表示 为 一 条 水 平 线 ( 见 下 图 )。 
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口 概率 分 布 函数 : 用 于 定义 某 次 实验 中 得 到 不 同 结果 的 相对 可 能 性 。 它 为 每 个 可 能 的 结 
都 分 配 一 个 概率 。 所 有 可 能 结果 的 概率 之 和 必 为 1。 通 常 来 说 ， 概 率 分 布 是 均匀 分 布 ， 即 
各 个 可 能 结果 的 概率 都 相同 。 当 掷 仍 子 时 ， 可 能 的 结果 为 1、2、3、4、5、6， 它 们 的 概 
率 为 Pr(1) = Pr(2) = Pr(3) = Pr(4) = Pr(5) = Pr(6) = 1/6。 


口 高 斯 函数 : 当 实 验 次 数 很 多 时 ， 可 用 高 斯 函数 来 描述 该 类 实验 。 高 斯 分 布 是 连续 也 数 ， 
也 称 正 态 分 布 。 正 态 分 布 的 平均 值 等 于 中 位 值 ， 概 率 分 布 关 于 中 心 对 称 。 

2. 函数 组 合 

已 知 函 数 上 A 一 B 和 8g:B 一 C， 函 数 A 和 sg 的 组 合 为 g。j:A 一 C， 记 作 (g。jHjCo =g(o)。 
比如 ， 如 果 FL 2,3} 一 {A,B,C,D},，g:{ A, B,C,D} 一 {4,5}, 则 gQ)=2y 和 fx) =x+1 的 组 
合 为 CE。 力 =2Cc+1)。 

函数 的 组 合 是 将 一 个 函数 的 结果 作为 另 一 个 函数 的 输入 。 因 此 , 在 (g。jHhoo = g(x) 中 ， 先 
计算 如， 再 计算 gs0。 有 些 函 数 可 被 分 解 为 两 个 或 多 个 更 简单 的 函数 。 

3. 假设 

令 了 为 输入 变量 ， 也 称 输入 特征 ，)? 为 要 预测 的 输出 或 目标 变量 。(x,y) 对 称 为 训练 样本 ， 用 
于 学 习 的 数据 集 为 由 m 个 训练 样本 构成 的 列表 ，{(x,y)} 表 示 训 练 集 。 对 也 用 来 表示 输入 交 量 的 值 
的 空间 , 了 则 表示 输出 变量 的 值 的 空间 。 给 定 一 个 训练 集 , 用 它 来 学 习 一 个 函数 hh, 使 得 h: XY 一 7， 
其 中 po9O 是 7 值 的 预测 函数 。 这 样 的 函数 瑚 称 为 假设 (hypothesis )。 

当 要 预测 的 目标 变量 是 连续 的 时 , 该 学 习 问 题 称 为 回归 问题 。 当 y 的 取 值 为 少数 离散 变量 时 ， 
则 称 为 分 类 问题 。 

假设 我 们 用 x 的 线性 函数 来 近似 求解 y。 


该 假设 函数 可 定义 为 : 








































































































h(xX)=0, +ON + 


在 上 述 假设 函数 中 , 各 0 称 为 参数 ， 即 权重 。 它 们 确定 了 从 闻 映 射 到 了 的 线性 函数 所 在 的 空 
间 。 为 简化 书写 ， 可 引入 变量 xo = 1 ( 称 为 截 距 )， 并 将 上 述 等 式 表示 为 : 








h(x)= > 0% =OIX 
i=0 


表达 式 右 边 的 9 和 x 可 视 为 向 量 ， 而 nn 则 是 输入 变量 的 个 数 。 


在 继续 学 习 之 前 , 需要 注意 我 们 将 从 数学 基础 过 渡 到 学 习 算 法 上 。 优化 代价 函数 和 学 习 0 是 
理解 各 种 机 天 学 习 算法 的 基础 。 
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给 定 一 个 训练 数据 集 ， 如 何 学 习 参 数 集 9? 一 种 可 能 的 方法 是 使 得 h(x) 足 够 近似 给 定 训 练 集 
中 的 y。 这 就 需要 定义 一 个 函数 来 量化 对 于 某 个 9，h(x()) 与 相应 的 y 有 多 接近 。 这 样 的 函数 被 定 
义 为 一 个 代价 函数 : 


10)=3 P00") -7 


2.2 梯度 下 降 


梯度 下 降 法 中 的 随机 梯度 下 降 法 会 对 数据 样本 进行 简单 的 分 布 式 抽样 ,损失 是 优化 问题 的 一 
部 分 ， 因 此 是 一 个 二 级 梯度 。 




















1 n 
— DL(w;x,, y,) 
1 j=l 





这 需要 访问 整个 数据 集 ， 而 这 不 是 最 优 的 。 
Dae, 
jo 


参数 miniBatchFraction 指定 了 整个 数据 集中 用 于 训练 的 数据 的 百分比 。 这 部 分 子 集 对 
应 的 平均 梯度 为 : 





1 ， 
1 后 


它 是 一 个 随机 梯度 。 其 中 5S 是 抽样 子 集 ， 大 小 为 | S|=miniBatchFraction。 


如 下 代码 展示 了 如 何在 一 个 小 批量 数据 上 使 用 随机 梯度 下 降 法 来 计算 权重 和 损失 。 该 程序 的 
输出 为 一 个 权重 向 量 和 损失 值 。 


object SparkSGD { 
































def main(args: Array[String]): Unit = { 

val m= 4 

val n = 200000 

val sc = new SparkContext ("local[2]", "") 

val points = sc.parallelize(0 until m, 2) 

.mapPartitionsWithIndex { (idx, iter) = 

val random = new Random (idx) 
iter.map(i => (1.0, Vectors.dense(Array.fill(n) (random.nextDouble())))) 


} .cache () 

val (weights, loss) = GradqientDescent .runMiniBatchSGD ( 
points, 
new LogisticGradient, 
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new SquaredL2Updater, 

Ore 

2， 

1 Oi 

,0 

Vectors.dense(new Artay[Double] (n))) 
println("w:" + weights (0)) 
println("loss:" + loss(0)) 
sc.stop() 


} 





2.3” 先 验 概率 、 似 然 和 后 验 概率 
贝 叶 斯 定理 可 表述 为 : 














后 验 概率 = 先 验 概率 * 似 然 
它 可 表示 为 P(418B)=(P(B|4)* P(4))/P(B) ,其 中 PC |B) 为 给 定 B 时 4 的 概率 ， 即 后 验 
概率 。 


口 先 验 概率 : 其 概率 分 布 表示 在 观察 到 某 个 数据 对 象 之 前 ， 对 该 数据 对 象 的 了 解 或 不 确 
定性 。 
口 后 验 概率 : 其 概率 分 布 表示 在 观察 到 菜 个 数据 对 象 之 后 ， 可 能 参数 的 条 件 概率 分 布 情况 。 
口 似 然 : 事件 归 为 某 一 类 别 的 概率 。 


这 可 表示 如 下 : 











py19pO p(y|0)p(9) 


0 == 
六 Too 





2.4 微 积分 


微 积分 是 一 种 可 用 来 研究 事情 如 何 变化 的 数学 工具 。 它 提供 了 对 内 部 有 变动 的 系统 进行 建 模 
的 框架 ,并 能 推断 出 该 模型 的 预测 。 


























2.4.1 可 微微 分 


导数 是 微 积分 的 核心 。 它 定义 为 给 定 函 数 的 函数 值 随 其 某 个 变量 的 变化 而 改变 的 瞬时 变化 
率 。 找寻 导数 的 方法 称 为 微分 。 几 何 上 ， 如果 函数 的 导数 存在 且 在 给 定点 上 有 定义 ， 则 该 点 上 的 
导数 为 函数 在 该 点 上 正切 线 的 斜率 。 


微分 是 积分 的 逆向 过 程 ， 有 着 广泛 的 应 用 。 比 如 在 物理 上 , 位 移 对 时 间 的 导数 为 速度 ， 而 速 
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度 对 时 间 的 导数 则 是 加 速度 。 导 数 常用 于 求解 函数 的 极 大 值 或 极 小 值 。 

机 器 学 习 所 涉及 的 函数 , 其 变量 或 特征 的 维度 成 百 上 于。 我们 会 分 别 计算 因数 在 每 个 变量 维 
度 上 的 导数 ,然后 将 这 些 偏 导数 合并 到 一 个 向 量 中 。 这 样 的 向 量 就 构成 了 一 个 梯度 。 类 似 地 , 一 
个 梯度 的 二 阶 导数 是 一 个 矩阵 ， 称 为 黑 塞 ( Hessian ) 矩阵 。 
理解 梯度 和 黑 塞 矩 阵 有 助 于 定义 下 降 的 方向 和 速率 ,从 而 获知 如 何在 函数 空间 中 变动 ， 以 移 
动 到 最 底 端 那个 点 ， 进 而 最 小 化 该 函数 的 值 。 


下 面 列 出 了 一 个 简单 的 线性 回归 的 目标 函数 ， 其 中 不 和 了 为 待定 系数 。 




































































JPDD=3 了 ls- 中 


























拉 格 朗 日 乘 子 法 是 微 积分 中 用 于 在 有 条 件 约束 时 求 函 数 最 大 化 或 最 小 化 值 的 一 种 标准 方法 。 





2.4.2 ”积分 


积分 (integral calculus ) 将 小 片段 合并 到 一 起 来 求 总 数 ， 也 称 为 反 微 分 (anti-differential )， 
而 微分 〈differential ) 表示 划分 成 小 的 片段 并 研究 其 如 何 改变 。 


2.4.3” 拉 格 朗 日 乘 子 


在 数学 的 优化 问题 中 , 拉 格 明日 乘 子 (Lagrange multiplier ) 是 一 种 在 给 定 等 式 约 束 下 求解 函 
数 局 部 极 大 值 或 极 小 值 的 方法 。 在 给 定 约束 下 ， 求 解 最 大 和 分 布 便 是 一 个 例子 。 


最 好 用 例子 来 辅助 说 明 。 假 设 我 们 要 最 大 化 K(x,y)= - 刀 - 刀 ,但 7=x+1。 
约束 函数 为 go, 力 =x-y+1=0， 则 工 乘 子 变 为 : 





























L(x,y,A)=—x —y +A(x—y+1) 


对 x、y 和 4 分 别 做 微分 并 设 为 0 可 得 : 





ny =—2x+Ax=0 
Ox 
a =—-2y+Ax=0 
Oy 


Ep ND)=x-y+1=0 
Ox 





解 上 述 方程 便 可 得 到 x=-0.5、y=0.5 以 及 14= -1。 
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2.5 可视化 
本 节 介 绍 如 何 使 用 Breeze 从 Densevector 创建 简单 的 线 图 。 


Breeze 借用 了 Scala 绘图 工具 的 大 部 分 功能 ,但 API 有 所 不 同 。 下 面 的 例子 中 会 创建 两 个 带 
某 些 值 的 向 量 x1 和 y， 然 后 绘制 一 条 线 ， 并 将 其 保存 到 一 个 PNG 文件 里 : 











package linalg.plot 


import breeze.1inalg. 
import breeze.plot._ 


object BreezePlotSampleOne { 

def main(args: Arrayl[String]): Unit = { 
val f = Figure() 
val p = f.subplot(0) 
val x = DenseVector(0.0, 0.1, 0.2, 0. 
Vval y = DenseVector(1.1, 2.1, 0.5, 1. 
p += plot (x, y) 
DbD.XLlabel 三 "XX axis 
p.ylabel = "y axis" 
f.saveas ("lines-graph.png") 


WO 


3 
0， 


} 
上 述 代 码 会 生成 如 下 线 图 : 





yans 














X axls 








Breeze 也 支持 直方 图 。 下 面 的 代码 生成 了 100 000 个 样本 ， 然 后 将 这 些 正 态 分 布 的 随机 数 划 
分 到 100 个 区 间 里 ( 见 下 图 )。 


package linalg.plot 





import breeze.linalg._ 
import breeze.plot._ 
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object BreezePlotGaussian { 
def main(args: Array[String]): Unit = { 
val f = Figure() 
val .a UDDLoOtt2, ,Tr, 1) 
val g = breeze.stats.distributions.Gaussian(0, 1) 
p += hist(g.sample(100000), 100) 
p.title = "A normal distribution" 
f.saveas ("plot-gaussian-100000.png") 
} 
} 





A normal distribution 
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100 个 元 素 对 应 的 高 斯 分 布 如 下 图 所 示 : 





eosin 


























2.6 小 结 


本 章 讲解 了 线性 代数 的 基础 知识 , 它 对 于 机 带 学 习 很 有 用 ,还 讲解 了 向 量 和 和 矩 阵 等 基本 结构 。 
也 介绍 了 如 何 使 用 Spark 和 Breeze 在 这 些 结构 上 执行 基本 操作 。 我 们 提 到 了 一 些 技 巧 , 如 用 SVD 
来 变换 数据 。 男 外 还 分 析 了 线性 代数 中 函数 类 型 的 重要 性 。 最 后 学 习 了 如 何 使 用 Breeze 绘制 基 
本 的 图 表 。 下 一 章 将 概述 机 器 学 习 系 统 、 组 件 和 架构 。 








机 器 学 习 系 统 设 计 











本 童 将 为 一 个 智能 分 布 式 机 器 学 习 系统 设计 高 层 架构 ,该 系统 将 Spark 作 为 其 核心 计算 引擎 。 
我 们 将 会 关注 如 何 对 现 有 的 基于 网 页 的 业务 进行 重新 设计 , 以 令 其 能 利用 自动 化 机 器 学 习 系统 来 
增强 业务 中 的 关键 部 分 。 


在 讲述 该 业务 场景 前 ， 我 们 会 先 花 点 时 间 来 理解 机 器 学 习 是 什么 。 
之 后 ， 将 会 : 


口 介绍 假想 的 业务 场景 

口 概述 现 有 架构 

口 探寻 用 机 带 学 习 系 统 来 增强 或 蔡 代 某 些 业 务 功能 的 可 能 途径 
口 根据 上 述 内 容 ， 提 出 新 的 架构 


现代 的 大 数据 场景 包含 如 下 需求 。 


口 必须 能 与 系统 的 其 他 组 件 整合 ， 尤 其 是 数据 的 收集 和 存储 系统 、 分 析 和 报告 ， 以 及 前 端 
应 用 。 
口 易于 扩展 上 且 与 其 他 组 件 相 对 独立 。 理 想 情况 下 ， 同 时 具备 良好 的 水 平和 垂直 可 扩展 性 。 
口 支持 高 效 完成 所 需 类 型 的 计算 ， 即 机 器 学 习 和 人 迭代 式 分 析 应 用 。 
口 最 好 能 同时 文 持 批 处 理 和 实时 处 理 。 

作为 一 个 框架 ，Spark 本 身 能 满足 上 述 需求 。 然 而 我 们 还 需 确保 基于 它 设 计 的 机 器 学 习 系 统 
也 能 满足 这 些 需 求 。 阁 算法 的 实现 存在 能 引发 系统 故障 的 瓶 贷 ， 比 如 不 再 能 满足 上 述 某 些 需 求 ， 
那 该 实现 就 没 多 大 意义 。 





















































3.1 机 器 学 习 是 什么 


数据 挖掘 有 着 50 多 年 的 发 展 史 。 机 器 学 习 是 其 子 领域 之 一 ， 特 点 是 利用 大 型 计算 机 集群 来 
从 海量 数据 中 分 析 和 提取 知识 。 
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机 器 学 习 与 计算 统计 学 密切 相关 。 它 与 数学 优化 紧密 关联 , 为 其 提供 方法 、 理 论 和 应 用 领域 。 
机 器 学 习 在 各 种 传统 设计 和 编程 不 能 胜任 的 计算 任务 中 有 广泛 应 用 。 典 型 的 应 用 如 垃圾 邮件 过 
滤 、 光 学 字符 识别 (OCR )、 搜 索引 苟 和 计算 机 视觉 。 机 器 学 习 有 时 和 数据 按 掘 联 用 ， 但 更 偏向 














探索 性 数据 分 析 ， 亦 称 无 监督 学 习 。 








随 学 习 系 统 可 用 的 输入 的 自然 属性 不 同 , 机 器 学 习 系统 可 分 为 3 种。 学习 算法 发 现 输入 数据 




















的 内 在 结构 。 它 可 以 有 目标 ( 隐 含 模式 )， 也 可 以 是 发 现 特征 的 一 种 途经 。 





口 无 监督 学 习 : 学 习 系 统 的 输入 数据 中 并 不 包含 对 应 的 标签 (或 期 望 的 输出 )， 它 需 自行 从 
输入 中 找 出 输入 数据 的 内 在 结构 。 

口 监督 学 习 : 系统 已 知 各 输入 对 应 的 期 望 输出 ， 系 统 的 目标 是 学 习 如 何 将 输入 映射 到 输出 。 
口 强化 学 习 : 系统 与 环境 进行 交互 ， 它 有 已 定义 的 目标 , 但 没有 人 类 显 式 地 告知 其 是 否 正 


























在 接近 该 目标 。 


后 续 会 有 多 个 音节 分 别 涉及 监督 学 > 
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3.2 ”MovieStream 介绍 


为 便于 说 明 我 们 的 架构 设计 ， 这 里 假设 存在 一 个 贴近 现实 的 情景 。 假 设 我 们 受命 领导 
MovieStream 数据 科学 团队 。MovieStream 是 一 家 假想 的 互联 网 公司 ， 为 用 户 提供 在 线 电 影 和 电 








视 节 目的 内 容 服 务 。 
MovieStream 的 现 有 系统 可 概括 为 下 图 。 








用 户 和 
电影 数据 











MovieStream 


精 选 电影 推荐 选择 | 内 容 编辑 














批量 营销 活动 

















MovieStream 现 有 系统 架构 
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如 图 所 示 ， 向 用 户 推 荐 哪些 电影 和 节目 以 及 在 站 点 的 何 处 显示 , 目前 都 由 MovieStream 内 容 
编辑 团队 负责 。 该 团队 还 负责 为 MovieStream 的 批量 营销 活动 创建 内 容 , 包括 电子 邮件 和 其 他 直 
销 渠道 。 现 阶段 ，MovieStream 以 汇总 的 方式 来 收集 用 户 的 电影 浏览 记录 ， 并 能 访问 一 些 用 户 注 
册 时 所 填写 的 资料 。 此 外 ， 他 们 还 能 访问 其 所 收录 的 电影 的 一 些 基 本 元 数据 。 


MovieStream 能 自动 处 理 当 前 由 内 容 团 队 负 责 的 许多 方面 。 





















































3.3” 机 器 学 习 系 统 商 业 用 例 
第 一 个 该 问 的 问题 或 许 是 : 为 什么 要 使 用 机 器 学 习 ? 


为 何不 直接 仍 以 人 工 方式 来 支持 MovieStream? 使 用 机 器 学 习 的 理由 有 很 多 ( 不 使 用 的 理由 
同样 也 有 很 多 )， 其 中 最 为 重要 的 几 点 有 : 


口 涉及 的 数据 规模 意味 着 完全 依靠 人 工 处 理会 很 快 跟 不 上 MovieStream 的 发 展 ; 

口 机 器 学 习 和 统计 模型 等 基于 模型 的 方式 能 发 现 人 类 ( 因数 据 集 量 级 和 复杂 度 过 高 ) 难以 
发 现 的 模式 ; 

口 基于 模型 的 方式 能 避免 个 人 或 是 情感 上 的 偏见 〈 只 要 应 用 时 足够 细心 且 正 确 )。 


然而 , 没有 任何 理由 说 基于 模型 和 基于 人 工 的 处 理 和 决策 不 能 并 存 。 比 如 , 许多 机 器 学 习 系 
统 依赖 已 标记 的 数据 来 训练 模型 。 通 常 来 说 ,标记 数据 代价 高 郧 、 耗 时 且 需 人 工 参 与 。 文 本 数据 
分 类 和 文本 的 情感 标识 便 是 很 好 的 例子 。 许多 现实 中 的 系统 会 采取 某 种 人 工 机 制 来 为 数据 ( 至 少 
是 部 分 数据 ) 生成 标签 ， 并 用 于 训练 模型 。 之 后 ， 这 些 模型 则 部 署 到 在 线 系统 中 ， 用 于 大 规模 环 
境 下 的 预测 。 


在 MovieStream 的 案例 中 , 我 们 并 不 需要 担心 机 器 学 习 的 引入 会 使 得 内 容 团 队 多 余 。 事实 上 ， 
我 们 的 目标 是 让 机 器 学 习 来 负担 那些 耗 时 且 机 器 擅长 的 任务 , 并 向 内 容 团队 提供 工具 以 帮助 他 们 
更 好 地 理解 用 户 和 内 容 ， 比 如 帮助 他 们 确定 向 电影 库 中 新 增 哪 些 电 影 ( 新 增 电 影 代价 高 昂 ， 因 而 
对 业务 至 关 重 要 )。 


























































































































3.3.1 个 性 化 


对 MovieStream 的 业务 来 说 ,个 性 化 或 许 是 机 带 学 习 最 为 重要 的 潜在 应 用 之 一 。 一 般 来 说 ， 
个 性 化 是 根据 各 种 因素 来 改变 用 户 体验 和 呈现 给 用 户 的 内 容 。 这 些 因 素 可 能 包括 用 户 的 行为 数据 
和 外 部 因素 。 

推荐 (recommendation ) 从 根本 上 说 是 个 性 化 的 一 种 ， 常 指向 用 户 呈 现 一 个 他 们 可 能 感 兴趣 
的 物品 列表 。 推 荐 可 用 于 网 页 〈 比如 推荐 相关 产品 ) 电子 邮件 、 其 他 直销 渠道 或 移动 应 用 等 。 


个 性 化 和 推荐 十 分 相似 , 但 推荐 通常 专 指向 用 户 显 式 地 呈现 某 些 产品 或 内 容 ， 而 个 性 化 有 时 
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也 偏向 隐 式 。 比 如 说 ,对 MovieStream 的 搜索 功能 个 性 化 ， 以 根据 给 定 用 户 的 数据 来 改变 搜索 结 
果 。 这 些 数据 可 能 包括 基于 推荐 的 数据 (在 搜索 产品 或 内 容 时 )， 也 可 能 包括 地 理 位 置 和 搜索 历 
史 等 其 他 因素 。 用 户 可 能 不 会 明显 感觉 到 搜索 结果 的 变化 ， 这 就 是 个 性 化 更 偏向 隐 式 的 原因 。 








3.3.2 目标 营销 和 客户 细 分 
目标 营销 用 与 推荐 类 似 的 方法 从 用 户 群 中 找 出 要 营销 的 对 象 。 一 般 来 说 , 推荐 和 个 怕 



































能 参考 行为 数据 。 这 种 方法 可 能 比较 简单 ， 也 可 能 使 用 了 某 种 机 器 学 习 模型 ， 比 如 聚 类 。 




















FE 化 的 应 


用 场景 都 是 一 对 一 ， 而 客户 细 分 则 试图 将 用 户 分 成 不 同 的 组 。 其 分 组 根据 用 户 的 特征 进行 ， 并 可 


但 无 论 


如 何 , 其 结果 都 是 对 市 场 的 若干 细 分 。 这 些 细 分 或 许 有 助 于 理解 各 组 用 户 的 共性 、 同 组 用 户 之 间 











的 相似 性 ， 以 及 不 同 组 之 间 的 差异 。 


这 些 将 能 帮助 MovieStream 理解 用 户 行为 背后 的 动机 。 相 比 个 性 化 时 的 一 对 一 营销 ， 
至 还 有 助 于 制定 针对 用 户 群 的 更 为 广泛 的 营销 策略 。 
































它们 其 


当 没 有 已 标记 数据 ( 用 户 的 或 某 些 内 容 属 性 的 数据 ) 时 ， 这 些 方法 能 帮助 制定 营销 策略 ， 而 


非 采 取 一 刀 切 的 方法 。 


3.3.3 ”预测 建 模 与 分 析 


























机 器 学 习 的 第 三 个 应 用 领域 是 预测 性 分 析 。 这 个 词 的 范围 很 宽泛 , 甚至 从 某 种 意义 上 说 还 覆 
盖 推 荐 、 个 性 化 和 目标 营销 。 考 虑 到 推荐 和 市 场 细 分 有 所 区 别 ， 这 里 用 预测 建 模 ( predictive 















































modeling ) 来 表示 其 他 做 预测 的 模型 。 一 个 例子 是 对 于 一 部 新 电影 ， 在 有 任何 实际 的 流行 度 相关 
数据 前 ， 预 测 其 潜在 的 观看 次 数 和 票房 。 借 助 活动 记录 、 收 入 数据 以 及 内 容 属 性 ，MovieStream 


























可 以 创建 一 个 回归 模型 ( regression model ) 来 预测 新 电影 的 市 场 表 现 。 














另外 ， 也 可 使 用 分 类 模型 ( classification model ) 来 对 只 有 部 分 数据 的 新 电影 自动 分 配 标签 、 











关键 字 或 分 类 。 


3.4 机 器 学 习 模型 的 种 类 





以 上 MovieSteam 的 例子 列 出 了 机 器 学 习 的 一 些 应 用 场景 ， 但 这 些 并 非 全 部 。 后 面 几 章 在 介 





绍 不 同 机 顺 学 习 任务 时 还 会 提 到 一 些 相关 例子 。 
以 上 用 例 和 方法 大 致 可 分 为 如 下 两 种 机 融 学 习 。 





口 监督 学 习 ( supervised learning ): 这 种 方法 使 用 已 标记 数据 来 学 习 。 推 荐 引擎 、 回 归 和 分 
类 便 是 例子 。 它 们 所 使 用 的 标记 数据 可 以 是 用 户 对 电影 的 评级 〈 对 推荐 来 说 )、 电 影 标 签 
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(对 上 述 分 类 例子 来 说 ) 或 是 收入 数字 ( 对 回归 预测 来 说 )。 我 们 将 在 第 5 章 、 第 6 章 和 第 
7 章 讨 论 监督 学 习 。 

口 无 监督 学 习 (unsupervised learning ): 一 些 模 型 的 学 习 过 程 不 需要 标记 数据 ， 我 们 称 其 为 
无 监督 学 习 。 这 类 模型 试图 学 习 或 提取 数据 背后 的 结构 ， 或 从 中 抽取 最 为 重要 的 特征 。 
聚 类 、 降 维和 文本 处 理 的 某 些 特征 提取 都 是 无 监督 学 习 。 我 们 将 在 第 8 章 、 第 9 章 和 第 
10 章 分 别 介绍 它们 。 























3.5 数据 驱动 的 机 器 学 习 系 统 的 组 成 


从 高 层 设计 来 看 ， 我 们 的 机 器 学 习 系统 的 组 成 如 下 图 所 示 ， 其 中 展示 了 机 顺 学 习 的 流程 。 
该 流程 始 于 获取 与 存储 数据 ， 之 后 将 数据 转换 为 可 用 于 机 器 学 习 模型 的 形式 。 随 后 的 环节 有 训 
练 、 测 试 和 完善 模型 ， 以 及 将 最 终 的 模型 部 署 到 生产 系统 中 。 有 新 数据 产生 时 则 重复 该 流程 。 























常见 的 机 器 学 习 流程 


3.5.1 数据 获取 与 存储 


机 器 学 习 流 程 的 第 一 步 是 获取 训练 模型 所 需 的 数据 。 与 其 他 公司 类 似 ，MovieStream 的 数据 
通常 来 自用 户 活 动 、 其 他 系统 ( 通常 称 作 机 器 生成 的 数据 ) 和 外 部 数据 源 ( 比如 某 个 用 户 访问 站 
点 的 时 间 和 当时 的 天 气 )。 

获取 这 些 数据 的 途径 很 多 ， 比 如 收集 浏览 器 里 用 户 的 活动 记录 、 移动 应 用 的 事件 日 志 或 通过 
外 部 网 络 API 来 获取 地 理 或 天 气 信息 。 

获取 数据 后 通常 需 将 其 存储 起 来 。 要 存储 的 数据 包括 : 原始 数据 、 经 过 中 间 处 理 的 数据 ， 以 
及 可 用 于 生产 系统 的 最 终 建 模 结 果 。 


数据 存储 并 不 简单 ， 可 能 涉及 多 种 系统 。 文 件 系 统 ， 如 HDFS、Amazon S3 等 ; SQL 数据 库 ， 
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如 MySQL 或 PostgreSQL; 分 布 式 NoSQL 数据 存储 ， 如 HBase 、Cassandra 和 DynamoDB; 搜索 
引擎 ， 如 Solr 和 Elasticsearch; 流 数 据 系统 ， 如 Kafka、Flume 和 Amazon Kinesis。 


本 书 假设 已 获取 相关 数据 ， 这 样 我 们 就 能 专注 在 流程 后 续 的 处 理 和 建 模 环节 。 





3.5.2 ”数据 清理 与 转换 























大 部 分 机 器 学 习 模 型 所 处 理 的 都 是 特征 〈feature )。 特 征 通常 是 输入 变量 所 对 应 的 可 用 于 模 


型 的 数值 表示 。 











虽然 我 们 希望 能 将 大 部 分 时 间 用 于 机 带 学 习 模 型 探索 , 但 通常 用 上 述 途径 获取 到 的 数据 都 是 





原始 形式 ， 需 要 进一步 处 理 。 例 如 , 我 们 可 能 记录 了 一 些 月 
影 页 面 的 时 间 、 观 看 某 部 电影 的 时 间或 给 出 反馈 的 时 间 等 。 我 们 还 可 能 收集 














户 事件 的 细节 ， 比 如 用 户 查 看 某 部 电 
了 一 些 外 部 信息 ， 比 


如 用 户 的 位 置 (通过 他 们 的 耳 查 到 )。 这 些 事 件 日 志 通常 由 一 些 文字 或 数值 信息 组 合 而 成 (还 可 








能 是 其 他 形式 的 数据 ， 比 如 图 像 和 音频 )。 


绝 大 部 分 情况 下 , 这 些 原 始 数据 都 需要 经 过 预 处 理 
括 以 下 几 种 。 





动 数据 或 满足 特定 条 件 的 事件 数据 。 











才能 为 模型 所 使 用 。 预 处 理 











口 数据 过 滤 : 假设 我 们 想 从 一 部 分 原始 数据 中 创建 一 个 模型 ， 比 如 仅仅 是 最 近 几 个 月 的 活 


的 情况 可 能 








口 处 理 数 据 缺 失 、 不 完整 或 有 缺陷 : 许多 现实 中 的 数据 集 都 存在 某 种 程度 上 的 不 完整 。 这 


可 能 包括 数据 缺失 ( 比如 用 户 没 有 输入 )， 数 据 存在 错误 或 缺陷 〈 比如 数据 收集 或 存储 时 
的 错误 ， 技 术 问 题 或 漏洞 ， 以 及 软 硬 件 故障 )。 可 能 要 过 滤 掉 非 规整 数据 ， 或 通过 某 种 方 





式 来 填充 缺失 的 数据 点 〈 比如 将 数据 集 的 平均 值 作 为 缺失 点 的 值 )。 
口 处 理 可 能 的 异常 、 错 误 和 异常 值 : 错误 或 异常 的 数据 可 能 不 利于 模型 的 训练 ， 所 以 需要 

















过 滤 掉 ， 或 是 通过 某 些 方法 来 处 理 。 























D 数据 汇总 : 茶 些 模型 需要 输入 的 数据 进行 过 某 
型 的 总 数目 。 


口 合并 多 个 数据 源 : 比如 可 能 需要 将 各 个 用 户 的 事件 数据 与 不 同 的 内 部 数据 
或 外 部 数据 〈 如 地 理 位 置 、 天 气 和 经 济 数据 ) 合并 。 
种 汇总 ， 比 如 统计 各 用 户 经历 过 的 事 























( 如 用 户 属性 ) 





ES 


类 


对 数据 进行 初步 预 处 理 后 , 往往 需要 将 其 转换 为 一 种 适合 机 器 学 习 模型 的 表示 形式 。 对 许多 











模型 类 型 来 说 , 这 种 表示 就 是 包含 数值 数据 的 向 量 或 矩阵 。 进 行 数据 转 换 和 特 生 





战 包 括 以 下 这 些 情 况 。 











口 从 文本 数据 中 提取 有 用 信息 。 
口 处 理 图 像 或 音频 数据 。 





























FE 提 取 时 常见 的 挑 


口 将 类 别 数据 ( 比如 地 理 位 置 所 在 的 国家 或 是 电影 的 类 别 ) 编码 为 对 应 的 数值 表示 。 
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口 将 数值 数据 转换 为 类 别 数据 ， 以 减少 某 个 变量 的 可 能 值 的 数目 。 例 如 将 年 龄 分 为 几 个 段 
( 比如 25~35、45~55 等 )。 

口 对 数值 特征 进行 转换 。 比 如 对 数值 变量 应 用 对 数 转 换 ， 这 有 助 于 处 理 值 域 很 大 的 变量 。 
口 对 数值 特征 进行 正则 化 、 标 准 化 ， 以 保证 同一 模型 的 不 同 输入 变量 的 值 域 相同 。 许 多 机 
器 学 习 模 式 都 需要 标准 化 的 输入 。 

口 特征 工程 。 这 是 对 现 有 变量 进行 组 合 或 转换 以 生成 新 特征 的 过 程 。 例 如 从 其 他 数据 求 平 
均 数 ， 像 求 某 个 用 户 看 电影 的 平均 时 间 。 


这 些 方法 都 会 在 本 书 的 例子 中 讲 到 。 


这 些 数据 清理 、 探 索 、 聚 合 和 转换 步骤 ， 都 能 通过 Spark 核心 API、SparkSQL 引 敬 和 其 他 外 
部 Scala Java 或 Python 包 做 到 ,借助 Spark 的 Hadoop 功能 还 能 实现 上 述 多 种 存储 系统 上 的 读 写 。 


当 输 入 为 数据 流 时 ， 还 能 借助 Spark Streaming 来 处 理 。 












































3.5.3 “模型 训练 与 测试 循环 

当 数 据 已 转换 为 可 用 于 模型 的 形式 ， 便 可 开始 模型 的 训练 和 测试 。 在 这 一 阶段 ,我 们 主要 关 
注 模型 选择 问题 。 这 可 以 归结 为 对 特定 任务 最 优 建 模 方法 的 选择 ,或 是 对 特定 模型 最 佳 参数 的 选 
择 问题 。 在 许多 情况 下 ,我们 会 想 尝 试 多 种 模型 并 选 出 表现 最 好 的 那个 ( 各 模型 都 采用 了 最 佳 的 
参数 时 )。 因 此 ,“ 模 型 选择 ”这 个 词 在 现实 中 经 常 同时 指 代 上 述 两 个 过 程 。 在 这 个 阶段 ， 探 索 多 
个 模型 组 合 ( 也 称 集成 学 习 法 ，ensemble method ) 的 效果 也 很 常见 。 

在 训练 数据 集 上 运行 模型 并 在 测试 数据 集 ( 即 为 评估 模型 而 预 留 的 数据 , 在 训练 阶段 模型 没 
接触 过 该 数据 ) 上 测试 其 效果 ， 这 个 过 程 一 般 相 对 直接 ， 被 称 作 交叉 验证 (cross-validation )。 

随 数据 集 类 型 和 迭代 次 数 的 不 同 ， 模 型 可 能 会 趋向 过 拟 合 或 不 能 收敛 。 

机 器 学 习 和 Spark 中 会 通过 集成 方法 ( 如 梯度 提升 决策 树 和 随机 森林 ) 来 避免 过 拟 合 。 

然而 , 我 们 所 处 理 的 通常 是 大 型 数据 集 ， 所 以 先 在 具有 代表 性 的 小 样本 数据 集 上 进行 初步 的 
训练 -测试 循环 ， 或 是 尽 可 能 并 行 地 选择 模型 ， 都 会 有 所 帮助 。 

Spark 内 置 的 机 器 学 习 库 MLlib 完全 能 胜任 这 个 阶段 的 需求 ,本 书 将 主要 关注 如 何 借助 MLlib 
和 Spark 核心 功能 来 实现 对 各 种 机 还 学 习 方 法 的 模型 训练 、 评 倘 以 及 交叉 验证 。 

































































3.5.4 ”模型 部 署 与 整合 


经 训练 -测试 循环 找 出 最 佳 模型 后 ， 要 让 它 得 出 可 付 诸 实践 的 预测 ， 还 需 将 其 部 署 到 生产 系 
统 中 。 























这 个 过 程 一 般 要 将 已 训练 的 模型 导入 特定 的 数据 存储 中 。 该 位 置 也 是 生产 系统 获取 新 版 本 的 
地 方 。 通 过 这 种 方式 ， 实 时 服务 系统 能 在 训练 新 模型 时 进行 周期 性 的 更 新 。 








3.5.5 “模型 监控 与 反馈 


监控 机 器 学 习 系统 在 生产 环境 下 的 表现 十 分 重要 。 在 部 署 了 最 优 训练 的 模型 后 , 我 们 会 想 知 
道 其 在 实际 中 的 表现 如 何 : 它 在 新 的 未 知 数据 上 的 表现 是 否 符合 预期 ?其 准确 度 怎么 样 ? 毕竟 不 
管 之 前 的 模型 选择 和 优化 做 得 如 何 ， 检 验 其 实际 表现 的 唯一 方法 是 观察 其 在 生产 环境 下 的 表现 。 


除 通 常 的 批 次 创建 的 模型 外 , 还 需 考 虑 借助 Spark Streaming 构建 的 模型 , 后 者 具有 实时 的 本 性 。 


同样 值得 注意 的 是 , 模型 准确 度 和 预测 效果 只 是 现实 中 系统 表现 的 一 部 分 。 通 常 还 应 该 关注 
其 他 业务 效果 ( 比如 收入 和 利润 率 ) 或 用 户 体 验 ( 比如 站 点 使 用 时 间 和 用 户 总 体 活跃 度 ) 的 相关 
指标 。 多 数 情况 下 很 难 将 它们 与 模型 预测 能 力 直 接 关联 。 推 荐 系统 或 目标 营销 系统 的 准确 度 可 能 
很 重要 ， 但 它 只 与 我 们 真正 关心 的 那些 指标 〈 如 用 户 体验 度 、 活 跃 度 以 及 最 终 收入 ) 间接 相关 。 


所 以 , 现实 中 应 该 同时 监控 模型 准确 度 相关 指标 和 业务 指标 。 我 们 应 该 尽 可 能 在 生产 系统 中 
部 署 不 同 的 模型 ,通过 调整 它们 来 优化 业务 指标 。 实 践 中 ， 这 通常 通过 在 线 分 割 测试 live split test ) 
进行 。 然 而 ,做 好 这 类 测试 并 不 容易 。 在 线 测试 和 实验 可 能 引发 错误 ,也 可 能 效果 不 好 ,或 者 会 
使 用 基准 模型 ( 它们 可 作为 部 署 后 模型 的 参考 对 照 ), 这 些 都 会 给 用 户 体 验 和 收入 带 来 负面 影响 ， 
故 其 代价 高 昂 。 


本 阶段 另 一 个 重要 的 方面 是 模型 反馈 ( model feedback )， 指 通过 用 户 的 行为 来 对 模型 的 预测 
进行 反馈 的 过 程 。 在 现实 系统 中 , 模型 的 应 用 将 影响 用 户 的 决策 和 潜在 行为 ， 从 而 反 过 来 将 从 根 
本 上 改变 模型 自己 将 来 的 训练 数据 。 


举例 来 说 ， 假 设 我 们 部 署 了 一 个 推荐 系统 。 推 荐 实际 上 限制 了 用 户 的 可 选项 ， 从 而 影响 了 用 
户 的 选择 。 我 们 希望 用 户 的 选择 不 会 受 模型 的 影响 , 然而 这 种 反馈 回路 会 反 过 来 影响 模型 的 训练 
数据 ， 再 反 过 来 影响 其 现实 世界 的 表现 。 这 可 能 使 得 每 次 反馈 所 能 提供 的 可 选项 越 来 越 少 ， 并 
最 终 对 模型 准确 度 和 重要 的 业务 指标 产生 不 利 影响 。 


好 在 可 以 借助 一 些 机 制 来 降低 反馈 回路 的 这 种 负面 影响 ， 比 如 提供 一 些 无 偏见 的 训练 数据 。 
这 类 数据 来 自 那些 没有 被 推荐 的 用 户 ， 又 或 者 在 一 开始 就 考虑 到 这 种 平衡 需求 而 划分 出 来 的 用 
户 。 这 些 机 制 有 助 于 对 数据 的 理解 、 探 索 以 及 利用 已 有 的 经 验 来 提升 系统 的 表现 。 


第 11 章 将 会 简要 介绍 实时 监控 和 模型 更 新 的 部 分 内 容 。 

































































































































































3.5.6 ” 批 处 理 或 实时 方案 的 选择 
前 几 节 简要 概括 了 常见 的 批 处 理 方法 。 在 这 类 方法 下 , 模型 用 所 有 数据 或 一 部 分 数据 进行 周 
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期 性 的 重新 训练 。 由 于 上 述 流程 会 花费 一 定 的 时 间 , 这 就 使 得 批 处 理 方法 难以 在 新 数据 到 达 时 立 
即 完成 模型 的 更 新 。 


虽然 本 书 将 主要 讨论 批 处 理 机 器 学 习 方 法 ， 但 的 确 存在 一 类 名 为 在 线 学 习 (online learning ) 
的 机 器 学 习 方 法 。 它 们 在 新 数据 到 达 时 便 能 立即 更 新 模型 ， 从 而 使 实时 系统 成 为 可 能 。 一 个 常见 
的 例子 是 对 线性 模型 的 在 线 优化 算法 ， 如 随机 梯度 下 降 法 。 我 们 可 以 通过 例子 来 学 习 该 算法 。 这 
类 方法 的 优势 在 于 , 其 系统 将 能 对 新 的 信息 和 底层 行为 的 变化 ( 即 输入 数据 的 特征 或 分 布 会 随时 
间 变 化 ， 现 实 中 的 绝 大 部 分 情况 下 都 会 如 此 ) 做 出 快速 的 反应 和 调整 。 


但 在 实际 生产 环境 中 ,在线 学 习 模 型 也 会 面 对 特 有 的 挑战 。 比 如 ， 对 数据 的 获取 和 转换 难以 
做 到 实时 。 在 一 个 纯 在 线 环境 下 选择 适当 的 模型 也 不 简单 。 在 线 训练 和 模型 选择 及 部 署 阶段 的 延 
时 可 能 难以 满足 实时 性 的 需求 ( 比如 在 线 广告 对 延 时 的 需求 是 以 毫秒 计 )。 最 后 ， 批 处 理 框架 不 
适合 对 本 质 为 流 的 数据 进行 实时 处 理 。 


幸好 Spark 提供 了 实时 流 处 理 组 件 Spark Streaming， 对 实时 机 器 学 习 任 务 来 说 是 个 不 错 的 选 
择 。 第 11 章 将 探讨 Spark Streaming 和 在 线 学 习 问 题 。 


现实 中 的 实时 机 器 学 习 系 统 具 有 天 生 的 复杂 性 , 故 实践 中 大 部 分 的 系统 都 以 近 实时 性 操作 为 
设计 目标 。 这 是 一 种 混合 方法 ， 它 并 不 要 求 模 型 一 定 在 数据 到 达 时 立即 更 新 。 相 反 ， 新 的 数据 会 
被 收集 为 小 批量 的 训练 数据 ， 再 输入 给 在 线 学 习 算 法 。 大 部 分 情况 下 ,该 方法 会 周期 性 地 进行 某 
种 批 处 理 ， 比 如 在 整个 数据 集 上 重新 计算 模型 ， 或 是 更 为 复杂 的 数据 处 理 以 及 模型 的 选择 。 这 些 
能 保证 实时 模型 的 表现 不 会 随时 间 推 移 而 变 差 。 


男 一 种 类 似 的 方法 是 , 在 周期 性 批 处 理 中 进行 重新 计算 时 , 若 有 新 的 数据 到 来 则 只 对 更 复杂 
的 模型 进行 近似 更 新 。 这 样 模型 可 从 新 的 数据 中 学 习 , 但 有 短暂 延迟 ( 通常 以 毫秒 计 ， 也 可 能 以 
分 钟 计 )。 因 为 是 近似 更 新 ， 所 以 模型 的 准确 度 会 随 着 时 间 推 移 而 下 降 。 但 周期 性 地 在 所 有 数据 
上 重新 计算 模型 能 弥补 这 一 点 。 


























































































































3.5.7 ”Spark 数据 管道 
如 上 述 MovieLens 案例 中 所 见 , 要 运行 一 系列 机 器 学 习 算 法 来 对 数据 进行 处 理 和 从 中 学 习 是 
很 常见 的 。 文 本 处 理 流程 也 是 一 种 典型 ， 它 包括 几 个 阶段 : 
口 将 文本 划分 为 单词 ; 
口 将 这 些 单词 转换 为 数值 表示 的 特征 向 量 ; 
口 从 特征 向 量 和 标签 中 学 习 一 个 预测 模型 。 


Spark MLlib 将 这 种 工作 流程 称 为 管道 ( Pipeline )。 它 由 若干 的 管道 阶段 构成 , 各 阶段 由 转换 
器 (transformer ) 或 估计 器 ( estimator ) 作用 ， 并 按 一 定 的 顺序 运行 。 
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一 个 管道 由 一 系列 阶段 所 确定 。 每 个 阶段 是 一 个 转换 如 或 评估 右 。 转 换 器 会 将 一 个 
DataFrame (数据 帧 ) 转换 为 另 一 个 DataFrame。 售 计 器 则 是 一 种 学 习 算 法 。 各 管道 阶段 有 序 
启用 ,输入 的 DataFrame 则 在 阶段 之 间 被 转换 。 


在 转换 器 阶段 ， 会 对 DataFrame 调用 transform() 因数 。 到 估计 器 阶段 ， 则 调用 fit () 郴 
数 来 生成 一 个 转换 絮 ( 它 会 成 为 PipelineModel 或 已 调 Pipeline 的 一 部 分 )。 转 换 器 会 对 该 


DataFrame 调用 transfomer () 函数 。 


3.6 ”机 器 学 习 系统 架构 


现在 我 们 已 经 了 解 了 如 何在 MovieStream 的 情景 中 应 用 机 器 学 习 系 统 , 其 可 能 的 架构 如 下 图 
所 示 。 
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如 图 所 示 ， 该 系统 包含 了 早先 机 顺 学 习 流 程 示意 图 的 内 容 ， 此 外 还 包括 : 


D 收集 与 用 户 、 用 户 行为 和 电影 标题 有 关 的 数据 ; 
口 将 这 些 数据 转换 为 特征 ; 
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口 模型 训练 ， 包 括 训 练 -测试 和 模型 选择 阶段 ; 

口 将 训练 好 的 模型 部 署 到 在 线 模型 服务 系统 ， 并 用 于 离线 处 理 ; 
口 通过 推荐 和 目标 页 面 将 模型 结果 反馈 到 MovieStream 站 点 ; 

口 将 模型 结果 返回 到 MovieStream 的 个 性 化 营销 渠道 ; 

口 使 用 离线 模型 来 为 MovieSteam 的 各 个 团队 提供 工具 ， 以 帮助 其 理解 用 户 的 行为 、 内 容 目 
录 的 特点 和 业务 收入 的 驱动 因素 。 


下 一 节 将 会 开始 接触 MovieStream 并 概要 介绍 Spark 中 的 机 器 学 习 模块 MLlib。 






























































3.7 Spark MLlib 


Apache Spark 是 一 个 用 于 海量 数据 处 理 的 开源 框架 。 驻 内 存 式 数 据 结构 ， 如 RDD ， 使 得 它 
适用 于 迭代 式 机 器 学 习 任 务 。MLlib 是 Spark 机 器 学 习 库 。 它 提供 了 多 种 监督 和 无 监督 学 习 算 法 ， 
以 及 多 种 统计 和 线性 代数 优化 。 它 随 Spark 一 起 发 布 ， 因 而 不 像 某 些 库 那 样 需 另 外 安装 。MLlib 
支持 多 种 高 阶 编程 语言 ， 如 Scala、Java、Python 和 R。 此 外 它 还 提供 了 一 个 高 层 API 结构 以 支 
持 机 需 学 习 流 程 的 构建 。 


MLlib 与 Spark 的 整合 十 分 有 益处 。Spark 为 迭代 式 计算 循环 而 设计 , 而 大 规模 机 器 学 习 算 法 
也 有 迭代 的 特性 ， 因 此 前 者 能 为 后 者 提供 高 效 的 实现 平台 。 

Spark 任何 数据 结构 的 优化 都 将 使 MLlib 直接 受益 。 Spark 强大 的 社区 贡献 者 也 在 不 断 地 提出 
新 的 算法 来 加 速 MLlib。 


除 此 之 外 ，Spark 还 提供 了 Pipeline 、GraphX 等 API。 它 们 有 助 于 与 MLlib 的 衔接 ， 从 而 简 
化 MLlib 上 的 开发 。 




































































3.8 Spark ML 的 性 能 提升 


Spark 2.0 使 用 TE ( Tungsten engine )。TE 借助 现代 编译 器 和 MPP 数据 库 理念 构建 。 它 在 运 
行 时 输出 优化 后 的 字 节 码 (bytecode )， 从 而 将 查询 转化 为 单个 函数 ， 避 免 了 虚拟 函数 的 调用 。 
TE 还 使 用 CPU 寄存 器 来 存储 中 间 数 据 。 


这 种 技术 称 为 全 阶段 代码 生成 (whole stage code generation )。 下 图 展示 了 Spark 1.6 和 Spark 2.0 
的 TPC-DS 性 能 测试 结 
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图 片 来 源 : https://databricks.com/blog/2016/05/11/apache-spark-2-0-technical-preview-easier-faster-and-smarter.html 


下 图 及 下 表 展 示 了 从 Spark 1.6 升级 到 Spark 2.0 时 ， 单 个 函数 的 优化 情况 。 
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操作 原 语 
操作 原 语 Spark 16 Spark2.0 
filter 15 1.1 
sum w/o group 14 0.9 
sum w/ group 79 10.7 
hash join 115 4 
sort (8-bit entropy) 620 5.3 
sort (64-bit entropy) 620 40 
sort-merge join 750 700 
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3.9 ”MLlib 支持 算法 的 比较 
本 节 来 看 下 MLlib 不 同 版 本 所 支持 的 算法 。 


3.9.1 分 类 


升级 到 1.6 版 时 ，Spark 支持 10 多 种 分 类 算法 ， 而 在 Spark ML 1.0 版 发 布 时 ， 仅 支持 3 种 算 
法 〈 见 下 表 ) | 















































序号 Spark 版 本 
算法 类 型 名 称 1.0.0 1.1.0 1.2.0 1.3.0 1.4.0 1.5.0 1.6.0 2.0.0 
分 类 1 |Binary Classification y y y y y y 时 ¥ 
2 | Naive Bayes y y y y y Mh y 加 
3 |Linear Regression n y y y 学 党 区 y 
4 |Logistical Regression y y y y y y y 某 
5|RandomForrest Classifier n n n y y y y 
6 |Probabilistic Classifier n n n n n y y y 
7 |GBT Classifier n n n n y y y y 
8 SVMwithSsGD y y y 6 ¥ y 
9 | Decision Tree Classifier n n n n y y y y 
10 | Multi Layer Perceptron Classifier n n n n n 学 革 #8 









































3.9.2 聚 类 


Spark 在 聚 类 算法 上 的 投入 较 多 ，1.0.0 版 时 ，Spark 仅 支 持 1 种 聚 类 算法 ， 到 1.6.0 版 时 已 支 
持 6 种 ( 见 下 表 )。 





















































Spark 版 本 

E 0 和 人 1.3.0 1.4.0 a .6. .0. 
聚 类 1|KMeans y y y 党 y 学 
2 |Bisecting K Means n n n n n n y y 

3|LDA n n n y y y 学 y 

4 |Powerlteration Clusting n n n y y y y y 

5|Streaming K Means n y y y y y 

6| Gaussian Mixture n n n y y y y y 











3.9.3 回归 


传统 上 来 说 ， 回 归并 非 重点 关注 的 领域 ,但 从 Spark 1.2.0 到 Spark 1.3.0， 增 加 了 对 3~4 种 新 
算法 的 支持 ( 见 下 表 )。 



































序号 Spark 版 本 

算法 类 型 名 称 1.0.0 1.1.0 1.2.0 1.3.0 1.4.0 1.5.0 1.6.0 2.0.0 

回归 1| GeneralizedLinearAlgorithm y y y y y y 法 y 
2 lsotonic Regression n n n y y y y y 
3 |LassowithSGD y y y y y 壬 其 
4 |Linear Regression ¥ 入 学 y a 芝 4 学 
5|Ridge Regression y y y y y y y y 
6|Ridge Regression with SGD y y y y y y Y 
7 |Streaming Linear Algorithm n y y y y y y y 












































3.10 ”MLilib 支持 的 函数 和 开发 者 API 
MLlib 提供 了 多 种 学 习 算 法 的 高 效 分 布 式 实现 ,包括 针 对 分 类 和 回归 等 的 多 种 线性 模型 、 朴 
素 贝 叶 斯 、SVM 、 随 机 森林 。 


最 小 二 乘法 (least squares， 显 式 和 隐 式 反馈 ) 用 于 协同 过 滤 ， 也 支持 用 于 聚 类 和 降 维 的 K- 均 
值 和 主 成 分 分 析 (PCA )。 


该 库 提 供 了 一 些 底层 原 语 和 基本 函数 用 于 凸 优化 、 分 布 式 线性 代数 〈 支 持 向 量 和 矩阵 )、 统 
计 分 析 (通过 Breeze 和 其 他 朴素 函数 )、 特 征 提 取 ， 并 支持 多 种 IO 格式 ， 包 括 LIBSVM 格式 。 


它 还 支持 通过 Spark SQL 和 PMML ( Guazzelli et al ，2009 ) 来 做 数据 整合 。 有 关 PMML 支 
持 情况 的 更 多 信息 ， 可 参见 https://spark.apache.org/docs/1.6.0/mllib-pmml-model-export.html。 


优化 算法 。MLlib 提供 了 多 种 优化 算法 来 实现 高 效 的 分 布 式 学 习 和 预测 。 

推荐 所 用 的 ALS 算法 使 用 划 区 ( blocking ) 来 降低 JVM 垃圾 回收 的 开销 ， 并 利用 高 层次 线 
性 代数 操作 。 决 策 树 则 借用 了 PLANET 项 目的 理念 ， 包 括 对 数据 依赖 的 特征 离散 化 ， 从 而 降低 
网 络 通信 开销 ， 还 有 同时 在 树 内 以 及 树 之 间 并 行进 行 集成 学 习 。 

泛 化 的 线性 模型 通过 优化 算法 来 学 习 。 这 类 算法 将 梯度 计算 并 行 化 , 并 在 工作 节点 上 使 用 高 
速 的 C++ 线性 代数 库 。 

计算 。 各 算法 均 从 高 效 的 通信 原 语 中 受益 。 举 例 来 说 ， 基 于 树 的 聚合 使 得 驱动 节点 不 会 成 为 
瓶颈 。 

模型 的 更 新 在 少 部 分 工作 节点 上 部 分 性 地 汇总 , 之 后 再 发 给 驱动 节点 。 这 种 实现 减少 了 驱动 
节点 的 工作 量 。 测 试 表 明 ,， 这 些 函 数 将 聚合 时 间 降 低 了 一 个 数量 级 ,特别 对 于 那些 有 大 量 分 区 的 
数据 集 。 

(参考 如 下 连接 : https://databricks.com/blog/2014/09/22/spark-1-1-mllib-performance-improvements.html。 ) 

Pipeline APl。 它 封装 了 实际 机 器 学 习 流 程 中 涉及 的 环节 ， 比 如 数据 的 预 处 理 、 特 征 提 取 、 
模型 拟 合 和 验证 等 阶段 。 

很 少 有 机 器 学 习 库 会 对 流程 中 所 涉及 功能 提供 原生 支持 。 当 处 理 大 型 数据 集 时 ， 编 写 一 个 端 
到 端的 流程 会 需要 相当 大 的 工作 量 和 网 络 通信 。 

利用 Spark 生态 系统 。MLlib 提供 了 一 个 代码 包 ， 旨 在 解决 这 些 问题 。 


spark.ml 简化 了 衔接 多 个 学 习 阶 段 的 工作 。 它 提供 了 一 套 统一 的 高 层次 API ( https://arxiv. 
org/pdf/1505.06807.pdf )。 它 内 含 能 让 用 户 用 自 定 义 的 算法 替换 标准 算法 的 API。 
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Spark 整合 
MLlib 能 利用 Spark 生态 系统 中 的 其 他 组 件 。Spark core 所 带 的 执行 引擎 支持 80 多 种 操作 。 
这 些 操作 可 用 于 数据 的 转化 (数据 清理 和 特征 化 )。 


MLlib 可 使 用 Spark 随 带 的 其 他 高 层次 库 ， 如 Spark SQL。Spark SQL 提供 了 数据 整合 功能 、 
SQL 和 结构 化 数据 处 理 能 力 ， 从 而 简化 了 数据 清理 和 预 处 理 。 它 支持 DataFrame 抽象 ， 这 对 
spark.ml 包 来 说 是 基础 。 


GraphX 支持 大 规模 图 处 理 ， 并 为 实现 那些 可 看 作 大 规模 稀 跑 图 问题 的 学 习 算 法 (如 LDA ) 
提供 了 功能 强大 的 API。 

Spark Steaming 提供 了 实时 数据 流 处 理 能 力 ， 并 使 得 开发 在 线 学 习 算 法 成 为 可 能 。 这 类 算法 
如 Freeman (2015 )。 后 续 的 章节 中 将 会 讲 到 该 内 容 。 





























3.11 MLlib 愿景 


MLlib 的 愿景 是 提供 一 个 可 扩展 的 机 器 学 习 平台 , 以 支持 海量 数据 处 理 , 同时 具有 比 Hadoop 
之 类 的 现 有 系统 更 快 的 处 理 效率 。 


它 还 致力 于 提供 尽 可 能 多 的 监督 和 无 监督 学 习 算法 ， 涉 及 分 类 、 聚 类 和 回归 问题 。 














3.12 ”MLlib 版 本 的 变迁 
本 节 比 较 MLlib 不 同 版 本 的 差异 ， 并 介绍 新 增 功能 。 





Spark 1.6 到 Spark 2.0 
基于 DataFrame 的 API 将 会 成 为 主要 的 API。 


基于 RDD 的 API 开始 进 入 以 维护 为 主 的 模式 。MLlib 指南 提供 了 更 多 信息 : http://spark.apache. 
org/docs/2.0.0/ml-guide.html。 


Spark 2.0 引入 了 如 下 特性 。 


口 ML 持久 化 : 基于 DataFrame 的 API 对 ML 模型 的 存储 和 载 人 , 以 及 Scala、 Java、 Python 
和 及 语言 下 的 Pipeline 操作 提供 了 支持 。 

D MLIib 的 RR 语言 支持 : SparkR 支持 MLlib 中 泛 化 线性 模型 、 朴 素 贝 叶 斯 、 天 -均值 聚 类 和 
生存 回归 (survival regression ) 的 API。 

口 Python: PySpark 2.0 支持 新 的 MLlib 算法 ， 如 LDA、 泛 化 线性 回归 、 高 斯 混合 模型 等 。 





















































基于 DataFrame 的 API 新 增 了 高 斯 混合 模型 、 二 分 玉 均 值 聚 类 和 MaxAbsScalar 特征 提取 
算法 。 





3.13 小结 


本 章 介 绍 了 数据 驱动 的 自动 化 机 器 学 习 系 统 由 哪些 部 分 构成 , 还 描述 了 一 个 真实 系统 的 可 能 
架构 。 此 外 还 比较 了 Spark 的 机 器 学 习 库 MLlib 和 其 他 框架 的 性 能 。 最 后 概述 了 从 Spark 1.6 到 
Spark 2.0 的 功能 变迁 。 


























下 一 章 将 讨论 如 何 获取 公开 数据 集 以 用 于 常见 的 机 器 学 习 任务 ,还 将 了 解数 据 处 理 、 清 理 和 
转换 环节 的 一 些 基 本 概念 。 经 过 这 些 环节 后 ， 数 据 便 可 以 用 于 训练 机 器 学 习 模 型 了 。 
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机 器 学 习 是 一 个 极为 广泛 的 领域 ， 其 应 用 范围 已 包括 Web 和 移动 应 用 、 物 联网 、 传 感 网 络 、 
金融 服务 、 医 疗 健康 和 其 他 科研 领域 ， 而 这 些 还 只 是 其 中 一 小 部 分 。 


由 此 , 可 用 于 机 器 学 习 的 数据 来 源 也 极为 广泛 。 本 书 将 重点 关注 机 器 学 习 在 商业 领域 的 应 用 。 
该 领域 中 可 用 的 数据 通常 由 组 织 的 内 部 数据 ( 比如 金融 公司 的 交易 数据 ) 以 及 外 部 数据 ( 比如 该 
金融 公司 下 的 金融 资产 价格 数据 ) 构成 。 


以 第 3 章 假想 的 互联 网 公司 MovieStream 为 例 ,其 主要 的 内 部 数据 包括 站 点 提供 的 电影 数据 、 
用 户 的 服务 信息 数据 以 及 行为 数据 。 这 些 数据 涉及 电影 和 相关 内 容 ( 比如 标题 、 类 别 、 描 述 、 图 
片 、 演 员 和 导演 )、 用 户 信息 (比如 用 户 属性 、 位 置 和 其 他 信息 ) 以 及 用 户 活动 数据 ( 比如 网 页 
的 浏览 量 、 预 览 的 标题 和 次 数 、 评 级 、 评 论 ， 以 及 如 赞 、 分 享 之 类 的 社交 数据 ， 还 有 像 Facebook 
和 Twitter 之 类 的 社交 网 络 属性 )。 

其 外 部 数据 来 源 则 可 能 包括 天 气 和 地 理 定位 服务 ， 以 及 如 IMDB 和 Rotten Tomatoes 之 类 的 
第 三 方 电影 评级 与 评论 网 站 等 。 

一 般 来 说 ,获取 实际 的 公司 或 机 构 的 内 部 数据 十 分 困难 ， 因 为 这 些 信息 很 敏感 ( 尤其 是 购买 
记录 、 用 户 或 客户 行为 以 及 公司 财务 )， 也 关系 组 织 的 湾 在 利益 。 这 也 是 对 这 类 数据 应 用 机 需 学 
习 建 模 的 实用 之 处 : 一 个 预测 精准 的 好 模型 有 着 极 高 的 商业 价值 (Netflix Prize 和 Kaggle 上 机 器 
学 习 比 赛 的 成 功 就 是 很 好 的 见证 )。 

本 书 将 使 用 可 以 公开 访问 的 数据 来 讲解 数据 处 理 和 机 器 学 习 模 型 训练 的 相关 概念 。 

本 章 内 容 包括 : 

口 概述 机 器 学 习 中 经 常用 到 的 数据 类 型 ; 
举例 说 明 从 何 处 获取 感 兴趣 的 数据 集 (通常 可 从 互联 网 上 获取 )， 其 中 一 些 会 用 于 阐述 本 
书 所 涉及 模型 的 应 用 ; 
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口 了 解数 据 的 处 理 、 清 理 、 探 索 和 可 视 化 方法 ; 
口 介绍 将 原始 数据 转换 为 特征 以 作为 机 器 学 习 算 法 输入 的 各 种 技术 ; 
口 学 习 如 何 使 用 外 部 库 或 Spark 内 置 函 数 来 正则 化 输入 特征 。 














4.1 获取 公开 数据 集 


商业 敏感 数据 虽然 难以 获取 , 但 好 在 仍 有 相当 多 有 用 数据 可 公开 访问 。 它们 中 的 不 少 常用 来 
作为 特定 机 带 学 习 问 题 的 基准 测试 数据 。 常 见 的 数据 源 有 以 下 几 个 。 


口 UCL 机 器 学 习 知识 库 : 包括 近 300 个 不 同 大 小 和 类 型 的 数据 集 ， 可 用 于 分 类 、 回 归 、 珍 

类 和 推荐 系统 任务 。 数 据 集 列表 位 于 http://archive.ics.uci.edu/ml/。 

口 Amazon AWS 公开 数据 集 : 包含 的 通常 是 大 型 数据 集 ， 可 通过 Amazon S3 访问 。 这 些 数 
据 集 包括 人 类 基因 组 项 目 、Common Crawl 网 页 语料库 、 维 基 百 科 数 据 和 Google Books 
Ngrams。 这 些 数据 集 的 相关 信息 可 参见 https://registry.opendata.aws/。 

口 Kaggle: 这 里 集合 了 Kaggle 举行 的 各 种 机 器 学 习 竞赛 所 用 的 数据 集 。 它 们 覆盖 分 类 、 回 归 、 
排名 、 推 荐 系统 以 及 图 像 分 析 领 域 ， 可 从 Competitions 区 域 下 载 : https://www.kaggle.com/ 
competitionso 

口 KDnuggets: 这 里 包含 一 个 详细 的 公开 数据 集 列表 ， 其 中 一 些 是 上 面 提 到 过 的 。 该 列表 位 

于 https:/www.kdnuggets.com/datasets/index.html。 






























































己 也 会 接触 到 一 些 有 趣 的 学 术 或 是 商业 数据 。 


为 说 明 Spark 中 数据 处 理 、 转 换 和 特征 提取 相关 的 关键 概念 ,我 们 需要 下 载 一 个 电影 推荐 方 
面 的 常用 数据 集 MovieLens。 它 能 应 用 于 推荐 系统 和 其 他 机 器 学 习 任务 ， 适 合作 为 示例 数据 集 。 


Ce 针对 特定 的 应 用 领域 与 机 器 学 习 任 务 , 仍 有 许多 其 他 公开 数据 集 。 希望 你 自 














MovieLens 100k 数据 集 


MovieLens 100k 数据 集 包含 多 个 用 户 对 多 部 电影 的 10 万 条 评级 数据 ， 也 包含 电影 元 数据 和 
用 户 属性 信息 。 该 数据 集 不 大 ， 方 便 下 载 和 用 Spark 程序 快速 处 理 ， 故 适合 做 讲解 用 的 示例 。 


可 从 http://files.grouplens.org/datasets/movielens/ml-100k.zip 下 载 这 个 数据 集 。 


下 载 后 ， 可 在 终端 将 其 解压 : 























> unzip ml-100k.zip 
inflating: ml-100k/allbut .pl 
inflating: ml-100k/mku.sh 
inflating: ml-100k/README 
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inflating: ml-100k/ub.base 
inflating: ml-100k/ub.test 


会 创建 一 个 名 为 ml-100k 的 文件 夹 。 把 当前 目录 变更 到 该 日 录 , 然后 查看 其 内 容 。 其 中 重 
本 u.user( 用 户 属 性 文件 )、u.item ( 电影 元 数据 ) 和 udata ( 用 户 对 电影 的 评级 )。 


> cd ml-100k 


关于 数据 集 的 更 多 信息 可 查看 README 文件 ， 包 括 每 个 数据 文件 里 的 变量 定义 。 我 们 可 以 
使 用 head 命令 来 查看 各 个 文件 中 的 内 容 。 


比如 说 ， 可 以 看 到 uuser 文件 包含 user.id、 age、 gender、occupation 和 ZIP code 
这 些 属性 ， 各 属性 之 间 用 管道 符 ( | ) 分 隔 。 





























Uy 























> head -5 u.user 
11241MItechnician185711 
21531PF1other194043 
31231MIwriter132067 
41241MItechnician143537 
51331BElother115213 





uitem 文件 则 包含 movie ia、title、release date 以 及 若干 与 IMDB link 和 电影 分 类 
相关 的 属性 。 各 个 属性 之 间 也 用 1 符号 分 隔 : 


> head -5 u.item 

llToy Story (1995)|101-Jan-1995||http://us.imdb.com/M/titleexact? 
Toy”%20Story”%20(1995)10101011111110101010101010101010101010 

2|GoldenEye (1995)|101-Jan-1995| |http://us.imdb.com/M/titleexact? 
GoldenEye%20(1995)|10|11|11|I0I101010101010101010101010111010 

3|Four Rooms (1995)|101-Jan-1995||http://us.imdb.com/M/titleexact? 
Four%20Rooms%20(1995)10101010101010101010101010101010111010 

41Get Shorty (1995)|101-Jan-1995||http://us.imdb.com/M/titleexact? 
Get%20Shorty”%20(1995)10111010101110101110101010101010101010 

51Copycat (1995)|101-Jan-1995||http://us.imdb.com/M/titleexact? 
Copycat%20(1995)10101010101011101110101010101010111010 


上 述 数据 的 格式 如 下 : 





movie id | movie title | release date | video release date | IMDb 
URL | unknown | Action | Adventure | Animation | Children's | 
Comedy | Crime | Documentary | Drama | Fantasy | Film-Noir | 
Horror | Musical | Mystery | Romance | Sci-Fi | Thriller | War | 
Western | 


最 后 的 19 列表 示 流 派 ， 若 该 电影 归属 该 流派 ， 则 对 应 的 值 为 1， 反之 为 0。 一 部 电影 可 同时 
归属 多 个 流派 。 


电影 的 ID 被 用 于 u.data 数据 集 。 该 数据 集 包含 943 位 用 户 对 1682 部 电影 的 100 000 次 评级 。 
每 位 用 户 至 少 对 20 部 电源 评 过 级 。 用 户 和 电影 都 从 1 开始 连续 编号 ， 但 评级 条 日 随机 排序 。 
条 数据 的 各 个 列 之 间 用 | 分 隔 : 





型 











人 0 
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user id | :item id | rating | timestamp 
数据 中 的 时 间 惟 为 从 UTC 时 间 1970 年 1 月 1 日 起 计算 的 Unix 系统 时 间 的 总 秒 数 。 
下 面 列 出 了 u.data 中 的 部 分 数据 : 


> head -5 u.data 
1962423881250949 
1863023891717742 
223771878887116 
244512880606923 
1663461886397596 





4.2 探索 与 可 视 化 数据 
本 章 对 应 的 源 代码 可 以 在 PATH/spark-ml/Chapter04 下 找到 ; 


口 相应 的 Python 位 于 /MYPATH/spark-ml/Chappter_04/python 
口 相应 的 Scala 代码 位 于 /MYPATH/spark-ml/Chappter_04/scala 


Python 示例 代码 同时 提供 了 针对 1.6.2 和 2.0.0 的 版 本 。 在 书 中 ， 我 们 会 使 用 2.0.0 版 本 : 




















oi a ee oY 
上 一 一 movie_ data.py 
上 一 一 plot_user_ages.py 
上 一 blot_user_occupations .py 
上 一 一 rating_data.py 
六 一 spark-warehouse 
上 一 一 user_data.py 
六 一 tl. Ny 


上 一 2 

| 上 一 com 

| | 上 六 一 ”init_ .py 

| | -一 一 sparksamples 

| | = 

| | 广 一 一 movie_data.py 
| | 广 -一 plot_user_ages.py 
| | oo—— plot_user_occupations.py 
| | Fo rating_data.py 
| | 广 一 user_data.py 

| | 大 -一 一 -让 全 二 区 

| | 

| -一 一 二 和 二 芷 2 交 六 

FF 一 一 2520250 

| -一 一 -com 

| | 一 一 = Tt DY 

| 上 -一 一 sparksamples 

| 

| 

| 

| 

| 

| 

| 

| 

| 
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Scala 示例 代码 的 目录 结构 如 下 : 


上 一 1.6.2 
上 一 一 build.sbt 


六 一 spark-warehouse 


main 

-一 一 scala 
-一 一 org 

上 -一 一 sparksamples 

上 一 一 CountByRatingChart.scala 

上 一 exploredataset 

| 上 一 explore_movies.scala 

上 一 一 explore_ratings.scala 


上 -一 一 explore_users.scala 





| 

| 上 一 StandardScalarSample.scala 
| -一 一 TtIdqfSsample.scala 

上 一 一 MovieAgesChart.scala 

上 一 一 MovieDataFillingBadValues.scala 
上 一 一 MovieData.scala 

HC RatingData.scala 

上 一 一 UserAgesChart .scala 

上 一 UserData.scala 

上 一 一 UserOccupationChart.scala 

上 一 一 UserRatingsChart.scala 

-一 一 Util.scala 


[0 
以 
O 


Scala 2.0.0 版 本 示例 代码 的 结构 如 下 : 
一 2.0.0 

| 上 Co build.sbt 
| 上 六 一 src 

| -一 一 main 
| -一 一 scala 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 


-一 一 org 


sparksamples 
CountByRatingChart.scala 

df 

exploredataset 

上 一 explore_movies.scala 

上 一 explore_ratings.scala 

上- 一 一 explore_users.scala 
featureext 

上 一 一 ConvertWordsToVectors .scala 
上 一 一 StandardScalarSample.scala 
上 -一 一 TfIdfSample.scala 
MovieAgesChart.scala 
MovieDatarFillingBadValues.scala 
MovieData.scala 
RatingData.scala 

UserAgesChart .scala 
UserData.scala 
UserOccupationChart.scala 
UserRatingsChart.scala 
Util.scala 


加 
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输入 如 下 命令 即 可 进入 相应 的 目录 并 运行 示例 代码 : 


$ cd /MYPATH/spark-ml/Chapter 04/scala/2.0.0 
$ sbt compile 
$ sbt run 





4.2.1 探索 用 户 数 据 
首先 来 分 析 MovieLens 用 户 的 特征 。 


如 上 所 述 ， 数 据 的 各 列 由 1 符号 分 隔 ， 我 们 可 定义 一 个 custom_schema 因数 来 将 这 些 数 据 
存 人 一 个 DataFrame 中 。 相 应 的 Python 代码 位 于 com/sparksamples/Util.py 中 。 


T 

















def get_user_ datal(): 





custom schema = StructType([ 
ee StringType(), True), 
StructField("age IntegerType(), True), 
SE ET es StringType(), True), 
StructField("occupation", StringType(), True), 
StructField("zipCode", StringType(), True) 

站 习 

frompyspark.sql import SQLContext 


frompyspark.sql.types import * 


sql_context = SQLContext (sc) 

user_df = sql_context.read 
.format ('com.databricks.spark.csv ') 
.options (header = 'false ', delimiter = '|') 
.load("%Ss/ml-100k/u.user" % PATH, schema = 
custom_ schema) 

returnuser_dgdf 


之 后 ，user_data.py 通 过 如 下 代码 调用 该 函数 : 








user_data = get_user_dqata() 
print (user_data.first) 
相应 的 输出 如 下 : 
u'1|l24|IM|Itechnician|85711' 


代码 列表 如 下 : 


口 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/python/2.0.0/com/spark 
samples/user data.py 

DD https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/python/2.0.0/com/spark 
samples/util.py 
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上 述 步 骤 对 应 的 Scala 代码 位 于 Util.scala 中 ， 如 下 : 


val _ customSchema = StructType (ACTay ( 
StructField("no", IntegerType, true), 
StructField("age", StringType, true), 
StructField("gender", StringType, true), 
StructField("occupation", StringType, true), 
StructField("zipCode", StringType, true))); 
val spConfig = (new 

SparkConf) .setMaster ("local") .setAppName ("SparkApp") 
val spark = SparkSession 

.builder() 

.appName ("SparkUserData") .config(spConfig) 

.getOrCreate() 





val user_df = spark.read.format ("com.databricks.spark.csv") 
.option("delimiter", "|").schema (customSchema) 
.load("/home/ubuntu/work/ml-resources/spark-ml/data/ml- 
100k/u.user") 
val first = user_df.first() 
println("First Record : " + first) 


其 输出 如 下 : 


u'1l24|IM|Itechnician|85711' 


对 应 的 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/scala/2.0.0/ 


src/main/scala/org/sparksamples/UserData.scala。 


该 输出 是 我 们 用 户 数据 的 第 一 行 ， 从 中 可 以 看 出 ， 该 数据 用 1 符号 分 隔 。 


first 函数 与 collect 函数 类 似 ， 但 前 者 只 向 驱动 程序 返回 RDD 的 首 个 
元 素 。 我 们 也 可 以 使 用 take (k) 函数 只 向 驱动 程序 返回 RDD 的 前 大 个 元 素 。 


下 面 我 们 使 用 之 前 创建 的 DataFrame， 依 次 通过 groupBy、count () 和 collect () 函数 来 
计算 用 户 、 性 别 、 邮 编 和 职业 的 数 日 。 这 可 通过 如 下 代码 实现 。 注 意 ， 要 处 理 的 数据 集 并 不 大 ， 
故 这 里 没 进行 缓存 操作 。 


num_ users = USet_dqata.count () 

num_ genders = lenl(user_ data.groupBy ("gender") .count () .collect()) 

num_ occupation = len(user_data.groupBy ("occupation") .count().collect()) 
num zipcodes = len(user_ data.groupby ("zipCode") .count () .collect()) 
print ("Users: "+ str(num users)) 

print ("Genders: "+ str(num genders)) 

print ("Occupation: "+ str(num occupation)) 

print ("ZipCodes: "+ str(num zipcodes)) 


对 应 的 输出 如 下 : 
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Users: 943 
Genders: 2 
Occupations: 21 
ZIPCodes: 795 


对 应 的 代码 位 于 : 
i https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/scala/2.0.0/ 
src/main/scala/org/sparksamples/UserData.scala。 


类 似 地 ， 可 用 如 下 Scala 代码 来 统计 用 户 、 性 别 、 职 业 和 邮编 的 数目 : 


val num genders = user_df.groupBy ("gender") .count () .count () 
val num occupations = user_df.groupBy ("occupation") .count () .count () 
val num zipcodes = user_df.groupBy ("zipCode") .count () .count () 


printlin("num users : "+ User_df.count()) 
println("num genders : "+ num genders) 
println("num occupations : "+ num occupations) 
printlin("num zipcodes: "+ num zipcodes) 
println("Distribution by Occupation") 

( 


println(user_df.groupBy ("occupation") .count () .show() ) 
对 应 的 输出 如 下 : 


num users: 943 

num genders: 2 

num occupations: 21 
num zipcodes: 795 


下 面 创建 一 个 直方 图 来 分 析 用 户 年 龄 的 分 布 情况 。 


用 Python 实现 时 ， 先 将 DataFrame 存 人 变量 user_qdata 中 ， 之 后 调用 select ('age') 郴 
数 并 将 结果 存 入 行列 表 对 象 ， 然 后 通过 迭代 提取 出 年 龄 信息 并 存 和 人 到 user_ages_1list 中 。 


具体 作 图 会 通过 Python matplotlib 库 中 的 nist 函数 实现 。 


























user_data = get_user_data() 

user_ages = user_ data.select('age') .collect() 

user_ages_list = [] 

user_ages_len = len(user_ ages) 

for i in range(0, (user_ages_len - 1)): 
user_ages_list.append(user_ages[i].age) 

plt.hist(user ages_list, bins=20, color='lightblue', normed=True) 

fig & matpliotlib,.pYyYplot ge () 

fig.set_size_ inches (16, 10) 

plt.show!() 


对 应 的 代码 位 于 : 
0 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/python/ 
2.0.0/com/sparksamples/plot user ages.py。 
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这 里 hist 函数 的 输入 参数 有 ages 数组 、 直 方 图 的 bin 数目 ( 即 区 间 数 ,这 里 为 20 )。 同 时 
还 使 用 了 normed=True 参数 来 正则 化 直方 图 , 即 让 每 个 方 条 表示 年 龄 在 该 区 间 内 的 数据 量 在 总 
数据 量 中 的 占 比 。 


你 将 能 看 到 如 下 所 示 的 直方 图 。 从 中 可 以 看 出 MovieLens 的 用 户 偏 年 轻 。 大 量 用 户 处 于 15~35 岁 。 













































































用 户 年 龄 的 分 布 


相应 的 Scala 版 本 可 借助 一 个 基于 JEreeChart 的 库 来 实现 。 处 理 时 将 数据 分 为 16 个 区 间 来 显 
示 其 分 布 情况 。 


具体 可 借助 https://github.com/wookietreiber/scala-chart 库 来 从 Scala map 类 型 的 m_sorted 变 
量 创 建 柱 状 图 。 


首先 ， 用 select(" age") 函数 从 userDataFrame 中 提取 出 dages_arrayo 


之 后 向 mx 变量 填 入 输入 ， 即 用 于 显示 的 各 个 区 间 。 对 mx 排序 以 创建 一 个 ListMap 对 象 ， 
它 被 用 来 给 DefaultCategoryDataset 类 型 的 变量 ds 赋值 : 














val userDataFrame = Util.getUserFieldDataFrame() 
val ages_array = userDatarFrame.select ("age") .collect() 


val min = 0 

val max = 80 

val bins = 16 

val step = (80/bins) .toInt 


var mx = Map(0 ->0) 
for (i <- step until (max + step) by step) { 
mx += (i -> 0) 
} 
for( x <- 0 until ages_array.length) { 
val age = Integer.parseInt( 
ages_array (x) (0) .toString) 
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for(j <- 0 until (max + step) by step) { 
if(lage >= j && age < (j + step))t{ 
mx = mx + (j -> (mx(j) + 1)) 
} 
} 
} 
val mx_sorted = ListMap (mx.toSeq.sortBy(_._1):_*) 
val ds = new org.jfree.data.category.DefaultCategoryDataset 
mx_sorted.foreach{ case (k,v) => ds.addValuel(v,"UserAges", k)} 
val chart = ChartFactories.BarChart (ds) 
chart .show() 
Util ScustoB() 


完整 的 代码 在 UserAgesChart.scala 文件 中 。 


对 应 的 代码 位 于 : 
0 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/scala/2.0.0/ 
src/main/scala/org/sparksamples/UserAgesChart.scala。 你 将 能 看 到 如 下 所 示 的 直方 图 。 














0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 


UserAges 











统计 职业 分 布 
下 面 计算 用 户 的 职业 分 布 情况 。 
可 通过 如 下 步骤 来 获取 职业 分 布 对 应 的 DataFrame， 然 后 为 其 赋值 ,之 后 用 Matplotlib 来 显示 。 


(1) 获取 user_aqata。 

(2) 使 用 grouppy("occupation") 根据 职 业 做 聚合 ， 然 后 用 count () 进行 计数 ， 从 而 得 出 
只 业 分 布 。 

(3) 从 行列 表 里 提 取 tuple( "occupation", "count") 列 表 。 

(4) 创建 一 个 与 x_axis 和 y_axis 值 对 应 的 numpy 数组 。 

(5) 绘制 柱状 图 。 

(6) 显示 该 图 。 


完整 代码 如 下 : 
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user_data = get_user_data() 


user_occ = user_data.groupby ("occupation") .count().collect() 


user_occ_len = len(user_occ) 
user_occ_list = [] 


for i in range(0, (user_occ len - 1)): 

element = user_occ[il] 

Count = element. _ getattr_ _('count') 

tup = (element .occupation，count) 
user_occ_list.append (tup) 

x_axisl = np.array([c[0] for c in user_occ list]) 


Vaxisl :STD array (Lely fOr. TN USer OGGu LISEJ]) 
x_axis = x_axisl[np.argsort (y_axis1)] 
y_axis = y_axisl[np.argsort (y_axis1)] 


pos = np.arange (len (x_axis)) 
width = 1.0 


ax = plt.axes() 
ax.set_xticks(pos + (width / 2)) 
ax.set_xticklabels (x_axis) 


plt.bar(pos, y_axis, width, color='lightblue') 
plt.xticks (rotation=45, fontsize='9') 
plt.gcf() .subplots_adjust (bottom=0.15) 

#fig = matplotlib.pyplot.gcf() 


plt.show!() 


所 生成 的 图 应 与 下 图 类 似 。 从 图 上 看 , 最 常见 的 职业 为 student、 other、 educator、administrator、 


engineer 和 programmer。 
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对 应 的 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/python/ 
2.0.0/com/sparksamples/plot user occupations.py。 


用 Scala 实现 时 ， 可 遵循 如 下 步骤 。 
(1) 获取 userDataFrame。 
(2) 提取 职业 所 在 列 : 
userDataFrame.select ("occupation") 
(3) 对 各 行 按 职业 分 组 : 
val occupation groups =userDataFrame.groupBy ("occupation") .count () 
(4) 按 count 对 各 行 排 序 : 
val occupation groups_sorted =occupation groups.sort ("count") 


(5) 用 occupation_groups_collection 为 DefaultCategoryDataset 类 变量 as 赋值 。 
(6) 显示 JFreeChat 柱状 图 。 


完整 的 代码 如 下 : 





val userDataFrame = Util.getUserFieldDataFrame() 

val occupation = userDataFrame.select ("occupation") 

val occupation groups = userDataFrame.groupBy ("occupation").count() 
// occupation groups.show!() 

val occupation groups_sorted = 
occupation_ groups_sorted.show!() 
val occupation groups_collection = occupation groups_sorted.collect() 


occupation groups.sort ("count") 


val ds = new org.jfree.data.category.DefaultCategoryDataset 
val mx scala.collection.immutable.ListMap() 


for( x <- 0 until occupation groups_collection.length) { 
val occ = occupation groups_collection (x) (0) 
val count = Integer.parseInt (occupation groups_collection(x) (1) .toString) 
ds.addVvalue (count, "UserAges", occ.toString) 


val chart = ChartFactories.BarChart (ds) 
val font = new Font ("Dialog", Font.PLAIN,5); 


chart .peer.getCategoryPlot .getDomainAxis(). 
setCategoryLabelPositions (CategoryLabelPositions.UP_ 90) ; 

chart .peer.getCategoryPlot.getDomainAxis.setLabelFont (font) 

chart .show() 

Util.sc.stop!() 
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代码 的 输出 如 下 : 
+------------- +----- 十 
| occupation|count| 
+------------- +----- 十 
homemaker| 7| 
doctor| 7| 
none| 9| 
salesman| 12| 
lawyer| 12| 
retired| 14| 


| 

| 

| 

| 

| 

| 

| healthcare| 16| 
lentertainment| 18| 
| marketing| 26| 
| technician| 27| 
| artist| 28| 
| scientist| 31| 
| executive| 32| 
| writer| 45| 
| librarian| S51| 
| programmer| 66| 
| engineer| 67| 
ladministrator| 79| 
| educator| ”95|| 
| other| 195| 
+------------- +----- 十 
only showing top 20 rows 














下 图 为 上 述 代 码 生 成 的 JFreeChat 图 。 
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对 应 的 代码 位 于 : 
OD https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/scala/ 


2.0.0/src/main/scala/org/sparksamples/UserOccupationChart.scala。 
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4.2.2 ”探索 电影 数据 


接 下 来 , 我 们 了 解 一 下 电影 分 类 数据 的 特征 。 如 之 前 那样 , 我 们 可 以 先 简单 看 一 下 某 行 记录 ， 
然后 再 统计 电影 总 数 。 


下 面 会 先 创 建 电影 数据 的 DataFrame 对 象 。 这 会 通过 调用 com.gdatabrick.spark.csv 并 
给 定 分 隔 符 | 来 实现 。 之 后 ， 我 们 使 用 customschema 来 给 该 对 象 赋值 ， 然 后 返回 它 


def getMovieDataDF() : DataFrame = { 

val customSchema = StructType (Array( 

StructField("id", StringType, true), 

StructField("name", StringType, true), 

StructField("date", StringType, true), 

StructField("url", StringType, true))); 

val movieDf = Spark.readq.format ( 
"com.databricks.spark.csv") 
.option("delimiter", "|").schema (customSchema) 
.load (PATH_ MOVIES) 

return movieDf 





























述 方法 会 被 Scala 对 象 MovieData 调用 。 
如 下 步骤 则 可 将 日 期 信息 挑选 出 来 并 格式 化 为 Year 对 象 。 


(1) 创建 一 个 TempVi ew。 

(2) 将 Util.convertYear 国 数 注册 为 SparkSession.Util.spark ( 自 定 义 类 ) 下 的 一 
个 UDF。 

(3) 参照 如 下 代码 ， 在 该 Sparksession 上 执行 SQL 语句 。 

(4) 将 执行 结果 按 Year 分 组 并 调用 count () 函数 。 


完整 的 代码 如 下 : 


def getMovieYearsCountSorted(): scala.Array[ (Int, String)] = { 
val movie data df = Util.getMovieDataDF () 
movie data df.createOrReplaceTempView("movie_ data") 
movie data df.printSchema() 


Util.spark.udf.register("convertYear", Util.convertYear _) 
movie data_df.showl(false) 


val movie years = Util.spark.sgql("select convertYear (date) as year from movie_ data") 
val movie years_ count = movie years.groupBy ("year").count() 
movie_years_count .Show(false) 
val movie years_count_rdd = 
movie years_count.rdd.map(row => (Integer.parseInt (row(0) .toString), 
row(1) .上 toString) ) 
val movie_years_count_collect = movie_years_count_rddq.collect() 
val movie_years_count_collect_sort = movie years count collect.sortBy(_._1) 
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return movie years_count_collect_sort 





def main(args: Array[String]) { 
val movie years = MovieData.getMovieYearsCountSorted() 
for (a <- 0 to (movie years.length - 1)) { 
println(movie years(a)) 
} 
} 


其 输出 如 下 : 


(1900,1) 
(1922,1) 


(1998,65) 4 


对 应 的 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/scala/ 
2.0.0/src/main/scala/org/sparksamples/MovieData.scala 


接 下 来 绘 出 上 面 计算 出 的 电影 年 份 分 布 。 在 用 Scala 实现 时 ,会 借助 JFreeChart， 并 从 
MovieData.getMovieYearsCountSorted() 创 建 的 集合 来 为 org.jfree.data.category. 
DefaultCategoryDataset 的 对 象 赋值 。 





object MovieAgesChart { 


def main(args: Array[lString]) { 
val movie years_count_ collect_sort = MovieData.getMovieYearsCountSorted() 
val ds = new org.jfree.data.category.DefaultCategoryDataset 
for (i <- movie years_count_collect_ sort) { 
ds.addValue(i._2.toDouble, "year", i._1) 








} 

val chart = ChartFactories.BarChart (ds) 

val font = new Font ("Dialog", Font.PLAIN, 5); 
chart .peer.getCategoryPlot .getDomainAxis(). 

setCategoryLabelPositions (CategoryLabelPositions.UP_ 90); 

chart .peer.getCategoryPlot.getDomainAxis.setLabelFont (font) 
chart .show() 
Util.sc.stop() 








注意 ， 大 部 分 电影 来 自 1996 年 。 输 出 的 图 如 下 所 示 。 
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电影 的 年 份 分 布 


对 应 的 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/scala/ 
2.0.0/src/main/scala/org/sparksamples/MovieAgesChart.scala。 


4.2.3 ”探索 评级 数据 
现在 来 看 一 下 评级 数据 。 对 应 的 代码 位 于 Rat ingData 下 : 


object RatingData { 


def main(args: Arrayl[String]) { 
val customSchema = StructType (Array( 
StructField("user_id", IntegerType, true), 
StructField("movie _ id", IntegerType, true), 
StructField("rating", IntegerType, true), 
StructField("timestamp", IntegerType, true))) 


val spConfig = (new SparkConf) .setMaster("local").setAppName ("SparkApp") 
val spark = SparkSession 

.builder() 

.appName ("SparkRatingData") .config(spConfig) 

.GetOrCreate () 


val rating_df = spark.read.format ("com.databricks.spark.csv") 
.option("delimiter", "\t").schema(customSchema) 
.lJoad("../../data/ml-100k/u.data") 

rating_df.createOrReplaceTempView ("df") 
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val num ratings = rating_df.count() 
val num movies = Util.getMovieDataDF() .count () 
val first = rating df.first() 
println("first:" + first) 
println("num ratings:" + num ratings) 
} 
} 


其 输出 为 : 


First: 196 242 3 881250949 
num ratings:100000 


可 以 看 到 评级 次 数 共有 100 000。 另 外 ， 与 用 户 数据 和 电影 数据 不 同 ， 评 级 记录 用 \t 分 隔 。 
你 可 能 也 已 想到 ， 我 们 会 想 做 些 基本 的 统计 ， 并 且 绘 制 评级 值 分 布 的 直方 图 。 动 手 吧 ! 4 


下 面 会 求 评级 的 最 大 值 、 最 小 值 和 平均 值 ,以 及 各 用 户 给 出 的 平均 评级 和 每 部 电影 得 到 的 平 
均 评 级 。 具 体会 通过 Spark SQL 来 提取 电影 评级 的 最 大 值 、 最 小 值 和 平均 值 。 


val max = ULil1.sSpark.sdql("select max(rating) from df") 
max.show() 


























val min = Util.spark.sql("select minl(rating) from df") 
min.show!() 





val avg = Util.spark.sgql("select avg (rating) from df") 





avg .show() 

其 输出 如 下 
+---------------- + 

1 max(rating) | 
+---------------- + 

1 5 1 
+---------------- + 
+---------------- + 

| min(rating) | 
+---------------- + 

1 1 1 
+---------------- + 
+----------------- + 

| avg (rating) 1 
+----------------- + 

I 3.52986 | 
+----------------- + 

对 应 的 代码 位 于 : 
0 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/scala/ 


2.0.0/src/main/scala/org/sparksamples/RatingData.scala。 
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1. 评级 次 数 柱状 图 


从 结果 可 知 ， 用 户 对 电影 的 平均 评级 为 3.5 分 左右 。 这 可 能 暗示 评级 的 分 布 会 稍微 偏向 高 分 
数 。 我 们 采用 和 之 前 职业 分 布 类 似 的 步 又， 创建 一 个 评级 的 柱状 图 来 看 看 是 否 如 此 吧 。 











各 评级 对 应 次 数 的 绘图 代码 如 下 ， 它 位 于 CountByRatingChart.scala 中 。 


object CountByRatingChart { 


def main(args: Array[String]) { 


/*val rating_ data raw = Util.sc.textFile("../../data/ml-100k/u.data") 
val rating data = rating data raw.map(line => line.split("\t")) 

val ratings = rating data.map (fields => fields(2) .toInt) 

val ratings_count = ratings.countByValue()*/ 


val customSchema = StructType (Array( 
StructField("user_id", IntegerType, true), 
StructField("movie_ id", IntegerType, true), 
StructField("rating", IntegerType, true), 
StructField("timestamp", IntegerType, true))) 


val spConfig = (new SparkConf).setMaster("local").setAppName ("SparkApp") 
val spark = SparkSession 

.builder() 

.appName ("SparkRatingData") .config (spConfig) 

.getOrCreate() 


val rating_df = spark.read.format ("com.databricks.spark.csv") 
.option("delimiter", "\t").schema (customSchema) 
.lJoad("../../data/ml-100k/u.data") 


val rating df_count = rating_ df.groupBy ("rating") .count() .sort ("rating") 


// val rating_df_count_sorted = rating_ df_count.sort ("count") 
rating_df_count.show!() 
val rating_ df_count_collection = rating df_count.collect() 


val ds = new org.jfree.data.category.DefaultCategoryDataset 
val mx = scala.collection.immutable.ListMap() 


for (x <- 0 until rating_ df_count_collection.length) { 
val occ = rating df_count_collection(x) (0) 


val count = Integer.parseIint (rating_df_count_collection(x) (1) .toString) 


ds.addVvalue (count, "UserAges", occ.toString) 


// val sorted = ListMap (ratings_count.toSegq.sortBy(_._1):_*) 
// val ds = new org.jfree.data.category.DefaultCategoryDataset 
// sorted.foreach{ case (k,v) => ds.addValuel(v,"Rating Values", k)} 


val chart = ChartFactories.BarChart (ds) 
val font = new Font ("Dialog", Font.PLAIN, 5); 
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chart .peer.getCategoryPlot .getDomainAxis () . 
SetCategoryLabelPositions (CategoryLabelPositions.UP_ 90); 
chart .peer.getCategoryPlot.getDomainAxis.setLabelFont (font) 

chart .Show() 
Util.sc.stop() 


} 
上 述 代 码 的 执行 结果 如 下 : 




















国 UserAges 





2. 评级 次 数 分 布 
同样 ， 也 可 以 看 下 各 用 户 给 出 评级 的 次 数 的 分 布 情况 。 在 之 前 的 代码 中 ， 我 们 通过 tab 分隔 
符 来 得 出 评级 信息 ， 进 而 求 得 了 一 个 rating_data 的 RDD。 下 面 的 代码 会 重用 该 RDD。 


这 些 代码 位 于 UserRatingsChart.scala 文件 中 ,下 面 会 从 u.data 文件 创建 一 个 DataFrame 对 象 ， 
它 由 tab 分 隔 。 然 后 根据 user_ia 做 GroupBy 分 组 操作 , 之 后 按 评级 的 总 次 数 对 用 户 升序 排序 。 


后 续 的 代码 都 编写 在 如 下 的 main 函数 内 : 


object CountByRatingChart { 
def main(args: Array[String]): Unit = { 


} 
} 


首先 打印 出 这 些 评级 次 数 : 


val customSchema = StructType (Array\( 
StructField("user_id", IntegerType, true), 
StructField("movie_ id", IntegerType, true), 
StructField("rating", IntegerType, true), 
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StructField("timestamp", IntegerType, true))) 


val spConfig = (new SparkConf).setMaster("local").setAppName ("SparkApp") 
val spark = SparkSession 

.builder() 

.appName ("SparkRatingData") .config (spConfig) 

.getOrCreate() 


val rating_ df = spark.read.format ("com.databricks.spark.csv") 
.option("delimiter", "\t").schema (customSchema) 
.lJoad("../../data/ml-100k/u.data") 


val rating nos_by_user = rating_ df.groupBy ("user_id") .count () .sort ("count") 
val ds = new org.jfree.data.category.DefaultCategoryDataset 
rating_nos_by_user.show(rating nos_by_user.collect().length) 


打印 结果 如 下 : 





+------- +----- 十 
lIuser_idlcount| 
+------- +----- 十 
| 6361 201 
| 5721 201 
| 9261 201 
| 4051 7371 
+------- +----- 十 














接 下 来 借助 JEreeChart 来 绘制 其 柱状 图 。 这 需要 将 数据 从 rating_no_by_user 这 个 
DataFrame 导入 到 DefaultcategorySet 中 : 





val step = (max / bins).toInt 
for (i <- step until (max + step) by step) { 
mx += (i -> 0); 


} 

for (x <- 0 until rating nos_by user_ collect.length) { 
val user_id = Integer.parseInt (rating nos_by_user_collect (x 
val count = Integer.parseInt (rating nos_by_user_ collect (x)( 
ds.addValue (count, "Ratings", user_id) 


}.(O0} EOStrindy 
1)atoSstring) 


val chart = ChartFactories.BarChart (ds) 
chart .peer.getCategoryPlot.getDomainAxis() .setVisible (false) 


chart .show() 
TEL SC.StOD:() 


其 绘制 结果 如 下 : 
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上 图 中 ，x 轴 为 用 户 ID ， 而 了 轴 则 为 评级 的 总 次 数 。 各 用 户 的 评级 总 次 数 最 少 为 20， 最 多 
为 737。 


4.3 数据 的 处 理 与 转换 


为 了 让 原始 数据 可 用 于 机 器 学 习 算 法 , 我 们 需要 先 对 其 进行 清理 , 并 且 可 能 需要 进行 各 种 转 
换 , 之 后 才能 从 转换 后 的 数据 里 提取 有 用 的 特征 。 数 据 的 转换 和 特征 提取 联系 紧密 。 某 些 情 况 下 ， 
一 些 转换 本 身 便 是 特征 提取 的 过 程 。 


在 之 前 处 理 电 影 数据 集 时 , 我们 已 经 看 到 数据 清理 的 必要 性 。 一 般 来 说 , 现实 中 的 数据 会 存 
在 信息 不 规整 、 数 据点 缺失 和 异常 值 问题 。 理 想 情 况 下 ,我 们 会 修复 非 规整 数据 。 但 很 多 数据 集 
都 源 于 一 些 难以 重 现 的 收集 过 程 ( 比如 网 络 活动 数据 和 传感器 数据 )， 故 实际 上 会 难以 修复 。 值 
缺失 和 异常 也 很 常见 ， 且 处 理 方式 可 与 处 理 非 规 整 信息 类 似 。 总 的 来 说 ， 大 致 的 处 理 方法 如 下 。 


口 过 滤 掉 或 删除 非 规整 或 有 值 缺失 的 数据 : 这 通常 是 必需 的 ， 但 的 确 会 损失 这 些 数据 中 那 

些 好 的 信息 。 

口 填充 非 规整 或 缺失 的 数据 : 可 以 根据 其 他 的 数据 来 填充 非 规整 或 缺失 的 数据 。 方 法 包括 
用 零 值 、 全 局 平均 值 或 中 值 来 填充 ， 或 是 根据 相 邻 或 类 似 的 数据 点 来 做 插值 ( 通常 针对 
时 序数 据 ) 等 。 选 择 正确 的 方式 并 不 容易 ， 它 会 因数 据 、 应 用 场景 和 个 人 经 验 而 不 同 。 

口 对 异常 值 做 稳健 处 理 : 异常 值 的 主要 问题 在 于 ， 即 使 它们 是 极 值 也 不 一 定 就 是 错 的 。 到 

底 是 对 是 错 通常 很 难 分 辨 。 异 常 值 可 被 移 除 或 填充 ， 但 存在 某 些 统计 技术 〈 如 稳健 回归 ) 

可 用 于 处 理 异常 值 或 是 极 值 。 





图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 尊重 版 权 
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口 对 可 能 的 异常 值 进行 转换 : 男 一 种 处 理 异 常 值 或 极 值 的 方法 是 进行 转换 。 对 那些 可 能 存 
在 异常 值 或 值 域 覆盖 过 大 的 特征 ， 进 行 对 数 或 高 斯 核 转换 。 这 类 转换 有 助 于 降低 变量 存 
在 的 值 跳跃 的 影响 ， 并 将 非 线 性 关系 变 为 线性 的 。 














非 规整 数据 和 缺失 数据 的 填充 
下 面 看 一 下 电影 评论 的 年 份 ， 并 对 其 进行 清理 。 


上 面 已 举 过 一 个 过 滤 掉 非 规整 数据 的 例子 。 顺 着 上 述 代码 , 下 面 的 代码 对 发 行 日 期 有 问题 的 
数据 采取 了 填充 策略 ， 即 用 空 字 符 串 进行 填充 〈 后 面 会 改 用 发 行 日 期 的 中 位 数 来 填充 ): 


Util.spark.udf.register("convertYear", Util.convertYear _) 
movie_data_df.show(false) 
































val movie years = Util.spark.sql("select convertYear (date) as year from movie data") 


movie years.createOrReplaceTempView ("movie years") 
Util.spark.udf.register ("replaceEmptyStr", replaceEmptyStr _) 


val years_replaced = Util.spark.sql("select replaceEmptyStr (year) 
as r_year from movie years") 


上 述 代 码 所 使 用 的 replaceEmptystr 函数 的 定义 为 : 











def replaceEmptyStr(v: Int): Int = { 
try { 
if (v.equals("™")) { 
return 1900 
} else { 
return V 
} 
让 Gate 
case e: Exception => Pintln(e) 
return 1900 
} 
} 


接 下 来 会 提取 出 那些 非 1900 年 的 条 目 , 用 Array [int] 来 替代 Array [Row] 并 计算 如 下 指标 : 


口 各 条 目的 和 

口 条 目的 总 数 

口 年 份 的 平均 值 

口 年 份 的 中 位 值 

口 转换 后 的 总 年 份 数 
口 1900 年 的 条 目 数 


代码 如 下 : 
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Val movie years_filtered = movie years.filter(x => (x == 1900)) 
val years_filtered valid = years_replaced.filter(x => (x != 1900)).collect() 
val years_filtered valid_ int = new Arrayl[lInt] (years_filtered valid.length) 
for (i <- 0 until years_filtered valid.lengtnhn - 1) { 
val x = Integer.parseInt (years_filtered valid(i) (0) .toString) 
years_filtered valiqd int(i) = x 
; 


val years_filtered valid_ int_ sorted = years_filtered valid int.sorted 
val years_replaced_int = new Array[Int] (years_replaced.collect () .length) 
val years_replaced collect = years_replaced.collect() 


for (i <- 0 until years_replaced.collect().length - 1) { 
val x = Integer.parseInt (years_replaced collect (i) (0) .toString) 
years_replaceqd_ int(i) = x 


val years_replaced rdqd = Util.sc.parallelizel(years_replaced_int) 


val num = years_filtered valid.length 

Var Sumy = 0 

years_replaced_int.foreach(sumy += _) 

println("Total sum of Entries:" + sum y) 

println("Total No of Entries:" + num) 

val mean = sumy / num 

val median Vv = median(years_filtered valid_ int_ sorted) 
Util.sc.broadcast (mean) 

println("Mean value of Year:" + mean) 

println("Median value of Year:" + median v) 

Val years_x = years_replaced rdd.map(lv => replacel(v, median v)) 
println("Total Years after conversion:" + years x.count()) 





Var count = 0 
Util.sc.broadcast (Count ) 
Val years_with1900 = years x.map(x => (if (x == 1900) { 


count += 1 


})) 
println("Count of 1900: " + count) 


代码 的 输出 如 下 。 蔡 换 为 中 位 数 后 ，1900 年 条 目 数 的 输出 表明 我 们 的 处 理 过 程 无 误 。 


Total sum of Entries:3344062 
Total No of Entries:1682 

Mean value of Year:1988 

Median value of Year:1995 

Total Years after conversion:1682 
Count of 1900: 0 


1 





对 应 的 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/scala/ 
2.0.0/src/main/scala/org/sparksamples/MovieDataFillingBadValues.scala。 
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这 里 同时 求 出 了 发 行 年 份 的 平均 值 和 中 位 值 。 从 输出 也 可 看 到 ,发 行 年 份 分 布 的 偏向 使 得 其 
中 位 值 很 高 。 特 定 情况 下 ,通常 不 容易 确定 选取 什么 样 的 值 来 做 填充 才 够 精确 。 但 在 本 例 中 ,从 
该 偏向 来 看 ， 使 用 中 位 值 来 填充 的 确 可 行 。 























严格 来 说 , 上 面 示例 代码 的 可 扩展 性 并 不 很 高 , 因为 它 要 把 数据 都 返回 给 驱 

动 程序 。 平 均值 的 计算 可 通过 Spark 下 数值 型 RDD 的 mean 函数 来 实现 ， 但 目 

4 前 并 没 相 应 的 中 位 数 函 数 。 我 们 可 以 自己 编写 这 个 函数 来 求 中 位 数 ， 或 是 用 
sample 函数 (后面 几 章 会 经 常 看 到 ) 计算 样本 的 中 位 数 。 


4.4 ”从 数据 中 提取 有 用 特征 
在 完成 对 数据 的 初步 探索 、 处 理 和 清理 后 ， 便 可 从 中 提取 可 供 机 器 学 习 模 型 训练 用 的 特征 。 
特征 ( feature ) 指 那些 用 于 模型 训练 的 变量 。 每 一 行 数据 包含 可 供 提 取 到 训练 样本 中 的 各 种 











几乎 所 有 机 器 学 习 模 型 都 是 与 用 向 量 表示 的 数值 特征 打交道 。 因 此 , 我 们 需要 将 原始 数据 转 
换 为 数值 。 
特征 可 以 概括 地 分 为 如 下 几 种 。 


口 数值 特征 (numerical feature ): 这 些 特征 通常 为 实数 或 整数 ， 比 如 之 前 例子 中 提 到 的 年 龄 。 
口 类 别 特征 ( categorical feature ): 它们 的 取 值 只 能 是 可 能 状态 集合 中 的 某 一 种 。 我 们 数据 集 
中 的 用 户 性 别 、 职 业 或 电影 类 别 便 是 这 类 特征 。 

口 文本 特征 ( text feature ): 它们 派生 自 数据 中 的 文本 内 容 ， 比 如 电影 名 、 描 述 或 评论 。 

口 其 他 特征 : 大 部 分 其 他 特征 最 终 都 表示 为 数值 。 比 如 图 像 、 视 频 和 音频 可 被 表示 为 数值 
数据 的 集合 ， 地 理 位 置 则 可 由 经 纬度 或 地 理 散 列 ( geohash ) 表示 。 


本 节 我 们 将 谈 到 数值 特征 、 类 别 特征 以 及 文本 特征 。 









































4.4.1 数值 特征 


原始 的 数值 和 数值 特征 之 间 的 区 别 是 什么 ?实际 上 , 任何 数值 数据 都 能 作为 输入 变量 。 但 是 ， 
机 器 学 习 模 型 中 所 学 习 的 是 各 个 特征 的 权重 向 量 。 权 重 在 特征 值 到 输出 或 目标 变量 ( 指 在 监督 学 
习 模 型 中 ) 的 映射 过 程 中 扮演 重要 角色 。 

由 此 我 们 会 想 使 用 那些 合理 的 特征 , 让 模型 能 从 这 些 特征 中 学 到 特征 值 和 目标 变量 之 间 的 关 
系 。 比 如 年 龄 就 是 一 个 合理 的 特征 。 年龄 的 增加 和 某 项 支出 之 间 可 能 存在 直接 关系 。 类 似 地 ， 高 
度 也 是 一 个 可 直接 使 用 的 数值 特征 。 
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当 数 值 特征 仍 处 于 原始 形式 时 ， 其 可 用 性 相对 较 低 ,， 但 可 以 转化 为 更 有 用 的 表示 形式 。 位 置 
童 息 便 是 如 此 。 


若 使 用 原始 位 置信 息 〈 比如 用 经 纬度 表示 的 )， 我 们 的 模型 可 能 学 习 不 到 该 信息 和 某 个 输出 
之 间 的 有 用 关系 ,这 就 使 得 该 信息 的 可 用 性 不 高 ， 除 非 数 据点 的 确 很 密集 。 然 而 ， 对 位 置 进行 聚 
合 或 挑选 后 〈 比 如 聚焦 为 一 个 城市 或 国家 )， 便 可 能 和 特定 输出 之 间 存 在 某 种 关联 。 









































4.4.2 ”类 别 特征 


当 类 别 特征 仍 为 原始 形式 时 ， 其 取 值 来 自 所 有 可 能 取 值 所 构成 的 集合 ， 而 不 是 一 个 数字 ， 
故 不 能 作为 输入 。 之 前 例子 中 的 用 户 职 业 便 是 一 个 类 别 特征 变量 ， 其 可 能 的 取 值 有 学 后 、 程 序 
员 等 。 

这 样 的 类 别 特征 也 称 作 名 义 (nominal ) 变量 ， 即 其 各 个 可 能 取 值 之 间 没 有 顺序 关系 。 相 反 ， 
那些 存在 顺序 关系 的 〈 比如 之 前 提 到 的 评级 ， 从 定义 上 说 评级 5 会 高 于 或 是 好 于 评级 1 ) 则 被 称 
为 有 序 (ordinal ) 变量 。 

将 类 别 特征 表示 为 数字 形式 ， 常 可 借助 之 1 ( 1-ofK ) 编码 方法 进行 。 要 想 将 名 义 变量 表示 
为 可 用 于 机 器 学 习 任 务 的 形式 , 需要 借助 如 之 1 编码 这 样 的 方法 。 有 序 变量 的 原始 值 可 能 就 能 
直接 使 用 ,但 也 常会 经 过 和 名 义 变量 一 样 的 编码 处 理 。 

假设 变量 可 取 的 值 有 大 个 。 如 果 对 这 些 值 用 1 到 大 编 序 (索引 )， 则 可 以 用 长 度 为 大 的 二 元 
向 量 来 表示 该 变量 的 一 个 取 值 。 在 这 个 向 量 里 ， 该 取 值 对 应 的 序号 所 在 的 元 素 为 1， 其 他 元 素 
都 为 0。 


比如 职业 student 对 应 的 索引 为 0，programmer 对 应 的 索引 为 1。 那 么 student 和 programmer 
对 应 的 值 就 分 别 为 [1,0] 和 [0,1]。 


如 下 代码 先 提取 两 种 职业 的 二 元 表示 ， 随 后 创建 长 度 为 21 的 二 元 特征 向 量 。 


















































val ratings_grouped = rating_ df.groupBy ("rating") 
ratings_grouped.count () .show!() 

val ratings_byuser_local = rating_df.groupBy ("user_id").count() 
val count_ratings_byuser_local = ratings_byuser_local.count() 
ratings_byuser_local.show(ratings_byuser_local.collect() .length) 
val movie_ fields_df = Util.getMovieDataDF () 

val user_data df = Util.getUserFieldDataFrame () 

val occupation df = user_data df.select ("occupation") .distinct() 
occupation df.sort("occupation").show!() 

val occupation df_collect = occupation df.collect() 








var all_occupations_ dict_1: MaplString, Int] = Map() 
var idx = 0; 
// for 循环 访问 各 种 职业 (occupation) 
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for (idx <- 0 to (occupation _ qdqf _collect.length - 1)) { 
) 


all_occupations_dict_1 += occupation df_collect (idx) (0) .toString() -> idx 
9 
println("Encoding of 'doctor : " + all_occupations_dict_1 ("doctor")) 
println("Encoding of 'programmer' : " + all_ occupations_ dict_1 ("programmer")) 


上 述 代 码 中 println 语句 的 输出 为 : 


Encoding of 'doctor : 20 
Encoding of 'programmer' : 5 


下 面 创建 二 元 特征 向 量 和 长 度 : 








var k = all_occupations dict 1.size 
var binary_x = DenseVector .zeros [Double] (k) 
var k_programmer = all_occupations_dict_1 ("programmer") 


binary_x(k_programmer) = 1 

println("Binary feature vector: \n" + binary_x) 
println("Length of binary vector: " + k) 

AN 、 

输出 为 : 


Binary feature Vector: 


DenseVector (0.0，0.0，0.0，0.0，0.0，1.0，0.0，0.0，0.0，0.0，0.0，0.0，0.0，0.0，0.0， 


0.0, 0.0, 0.0, 0.0, 0.0, 0.0) 
Length of binary vector: 21 


对 应 的 代码 位 于 : 


0 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/ 


4.4 





scala/2.0.0/src/main/scala/org/sparksamples/RatingData.scala。 


.3 派生 特征 

















前 面 曾 提 到 ， 从 现 有 的 一 个 或 多 个 变量 派生 出 新 的 特征 常常 是 有 帮助 的 。 理 想 情况 下 , 派生 
出 的 特征 能 比 原始 变量 带 来 更 多 信息 。 




















比如 , 可 以 分 别 计算 各 用 户 已 有 的 电影 评级 的 平均 数 。 这 将 能 给 模型 加 入 针对 不 同月 





有 户 的 个 











性 化 特征 (事实 上 ， 这 常用 于 推荐 系统 )。 在 前 文中 我 们 也 从 原始 的 评级 数据 创建 了 新 的 特征 以 
学 习 出 更 好 的 模型 。 





特 生 


龄 、 





从 原始 数据 派生 特征 的 例子 包括 计算 平均 值 、 中 位 值 、 方 差 、 和 、 差 、 最 大 值 或 最 小 值 以 及 
计数 。 在 先前 的 内 容 中 , 我 们 已 看 到 如 何 从 电影 的 发 行 年 份 和 当前 年 份 派生 出 了 新 的 movie age 
E。 这 类 转换 背后 的 想法 常常 是 对 数值 数据 进行 某 种 概括 ， 让 模型 更 容易 学 习 这 些 特征 。 


数值 特征 到 类 别 特征 的 转换 也 很 常见 ， 比 如 划分 为 区 间 特 征 。 进行 这 类 转换 的 常见 变量 有 年 











地 理 位 置 和 时 间 。 
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将 时 间 戳 转换 为 类 别 特征 
@ 提取 点 钟 数 


下 面 以 评级 发 生 的 时 间 为 例 , 说 明 如 何 将 数值 数据 转换 为 类 别 特征 。 如 此 会 需要 定义 一 个 函 
数 来 将 评级 时 间 截 【 黎 钟 数 ) 转 为 一 个 datatime 类 的 对 象 ， 以 便 提取 日 期 和 时 间 , 然后 提取 当 
天 对 应 的 点 钟 数 。 这 使 得 每 个 评级 都 能 有 一 个 表示 相应 的 点 钟 数 的 RDD。 


首先 ， 定 义 一 个 函数 ， 它 从 给 定 日 期 字符 串 中 提取 出 对 应 的 点 钟 数 currentHour: 


def getCurrentHour (dateStr: String): Integer = { 
Var CurrentHour <=,0 
try { 
val date = new Date(dateStr.toLong) 
return int2Integer (date.getHours) 
} catch { 
Case _ => return currentHour 
return 1 


} 
之 后 ,定义 相关 变量 并 调用 该 函数 : 











val customSchema = StructType (ACTay ( 
StructField("user_id", IntegerType, true), 
StructField("movie id", IntegerType, true), 
StructField("rating", IntegerType, true), 
StructField("timestamp", IntegerType, true))) 


val spConfig = (new SparkConf) .setMaster ("local").setAppName ("SparkApp") 
val spark = SparkSession 
.builder() 
.appName ("SparkRatingData") .config (spConfig) 
.getOrCreate() 
val rating_ df = spark.read.format ("com.databricks.spark.csv") 
.option("delimiter", "\t").schema (customSchema) 


.load("../../data/ml-100k/u.data") 
rating_df.createOrReplaceTempView("df") 


Util.spark.udf.register("getCurrentHour", getCurrentHour _) 


val timestamps_df = Util.spark.sql ("select getCurrentHour (timestamp) as hour from df") 
timestamps_df.show!() 


述 代码 中 ， 首 先 创建 一 个 名 为 af 的 TempView， 然 后 对 其 执行 SQL 语句 而 得 到 


timestamps_df。 
对 应 的 代码 位 于 : 


0H https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/scala/ 
2.0.0/src/main/scala/org/sparksamples/RatingData.scala。 
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@ 将 点 钟 数 转换 为 时 间 段 
上 面 将 原始 评级 发 生 的 时 间 数 据 转换 为 相应 的 点 钟 数 。 


现在 假设 我 们 党 得 该 转换 的 粒度 不 够 , 想 进 一 步 细 化 该 转换 。 我 们 可 以 将 点 钟 数 转 为 一 天 中 
的 某 个 时 间 段 。 

比如 ，7~11 点 对 应 上 午 ，11~13 点 对 应 中 午 等 。 通 过 这 样 划分 ,我们 可 以 将 给 定 的 点 钟 数 转 
换 为 相应 的 时 间 段 。 


在 Scala 中 ， 可 定义 如 下 函数 ， 它 以 24 小 时 的 绝对 点 钟 数 为 输入 ， 输 出 对 应 的 时 间 段 : 


morning、 lunch、afternoon、 evening 或 night。 代码 如 下 : 




















def assignTod(hr: Integer): String = { 
(2) 入 
return "morning" 
} else if (hr >= 12 && hr < 14) { 
return "1 
} else if (hr >= 14 && hr < 18) { 
return "afternoon" 
} else if (hr >= 18 && hr.<(23)) { 
return "evening" 
} else if (hr >= 23 && hr <= 24) { 
return “"n 
} else if ( 
return "n 
} else { 
return “error" 








} 
我 们 将 该 函数 注册 一 个 UDF， 并 通过 一 个 select 来 调用 其 对 应 的 TempView: 




















Util.spark.udf.register("assignTod", assignTod _) 
timestamps_df.createOrReplaceTempView ("timestamps") 
val tod = Util.spark.sgql("select assignTod (hour) as tod from timestamps") 
tod.show!() 
对 应 的 代码 位 于 : 
0 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/scala/2.0.0/ 
src/main/scala/org/sparksamples/RatingData.scala。 


我 们 已 将 时 间 蕉 变量 转换 为 点 钟 数 ， 再 接着 转换 成 了 时 间 段 ， 从 而 得 到 了 一 个 类 别 特征 。 我 
们 可 以 借助 之 前 提 到 的 之 1 编码 方法 来 生成 其 相应 的 二 元 特征 向 量 。 






































4.4.4 ”文本 特征 
从 某 种 意义 上 说 , 文本 特征 也 是 一 种 类 别 特 征 或 派生 特征 。 下 面 以 电影 的 描述 (我 们 的 数据 
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集中 不 含 该 数据 ) 来 举例 。 即 便 是 作为 类 别 数据 ， 其 原始 的 文本 也 不 能 直接 使 用 ， 因 为 如 果 每 个 
单词 都 是 一 种 可 能 的 取 值 , 那么 可 能 出 现 的 单词 组 合 几乎 有 无 限 种 。 这 时 模型 几乎 看 不 到 有 相同 
的 特征 出 现 两 次 , 学习 的 效果 也 就 不 理想 。 从 中 可 以 看 出 ,我们 希望 将 原始 的 文本 转换 为 一 种 更 
便于 机 咒 学 习 的 形式 。 


文本 的 处 理 方式 有 很 多 种 。 自 然 语言 处 理 便 是 专注 于 文本 内 容 的 处 理 、 表 示 和 建 模 的 一 个 领 
域 。 关 于 文本 处 理 的 完整 内 容 并 不 在 本 书 的 讨论 范围 内 , 但 我 们 会 介绍 一 种 简单 且 标准 的 文本 特 
征 提取 方法 。 该 方法 被 称 为 词 袋 (bag-ofword ) 表示 法 。 


词 袋 法 将 一 段 文本 视 为 由 其 中 的 单词 和 数字 ( 通常 称 为 词 项 ) 组 成 的 集合 , 其 处 理 过 程 如 下 。 


口 分 词 (tokenization ): 首先 会 应 用 某 种 分 词 方法 来 将 文本 分 割 为 一 个 由 词 (一 般 如 单词 、 
数字 等 ) 组 成 的 集合 。 可 用 的 方法 如 空白 分 词法 。 这 种 方法 在 空白 处 对 文本 进行 分 割 ， 
可 能 同时 还 删除 标点 符号 和 其 他 非 字 母 或 数字 字符 。 

口 删除 停 用 词 ( stop words removal ): 之 后 , 它 通 常会 删除 常见 的 单词 ， 比 如 the、and 和 but 

(这 些 词 被 称 作 停 用 词 )。 

口 提取 词 干 (stemming ): 下 一 步 则 是 提取 词 干 。 这 是 指 将 各 个 词 项 简化 为 其 基本 的 形式 或 
者 干 词 。 和 常见 的 例子 如 复数 变 为 单数 ( 比如 dogs 变 为 dog 等 )。 提 取 词 干 的 方法 有 多 种 ， 
文本 处 理 算法 库 中 常常 会 包括 多 种 词 干 提取 方法 ， 比 如 OpenNLP、NLTK 等 。 词 干 提取 
的 详细 介绍 超出 了 本 书 的 讨论 范围 ， 读 者 可 自行 探索 这 些 库 。 

口 向 量化 ( vectorization ): 最 后 一 步 是 用 向 量 来 表示 处 理 好 的 词 项 。 二 元 向 量 可 能 是 最 为 简 
单 的 表示 方式 。 它 分 别 用 1 和 0 来 表示 是 否 存 在 某 个 词 项 。 从 根本 上 说 , 这 与 之 前 提 到 的 
之 1 编码 相同 ， 它 需要 一 个 词 项 字典 来 实现 词 项 到 索引 序号 的 映射 。 随 着 遇 到 的 词 项 增 
多 , 各 种 词 项 的 数目 可 能 达到 数 百 万 ( 即便 在 删除 停 用 词 并 且 经 过 词 干 提取 之 后 )。 因 此 ， 
使 用 稀 琉 矩阵 来 表示 就 很 关键 。 这 种 表示 只 记录 某 个 词 项 是 否 出 现 过 ， 从 而 节省 内 存 和 
磁盘 空间 ， 以 及 计算 时 间 。 

































































































































































第 10 章 会 提 到 更 为 复杂 的 文本 处 理 和 特征 提取 方法 ,包括 词 项 权重 赋值 法 。 
这 些 方法 远 比 我 们 之 前 看 到 的 二 元 编码 复杂 。 

1. 提取 简单 的 文本 特征 

我 们 以 数据 集中 的 电影 标题 为 例 ， 来 示范 如 何 提取 二 元 向 量 表示 中 的 文本 特征 。 

首先 需 创 建 一 个 函数 来 去 除 电 影 标题 中 可 能 存在 的 发 行 年 份 。 如 果 标 题 中 存在 发 行 年 份 , 就 
只 保留 电影 的 名 称 。 

我 们 会 用 正则 表达 式 来 寻找 电影 标题 中 包含 在 括号 中 的 年 份 信息 。 如果 找 到 与 表达 式 匹配 的 
字段 ， 将 提取 标题 中 匹配 起 始 位 置 ( 即 左 括号 所 在 的 位 置 ) 之 前 的 部 分 。 
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首先 创建 一 个 函数 ， 该 函数 以 一 个 


def processRegex (input: 
val Dat rn sr ALS(T]E, 





字符 串 为 输入 ， 用 一 个 正则 表达 式 过 滤 后 得 到 输出 。 


String = { 


val output = pattern.findFirstIn (input) 


return output.get 


} 





然后 从 DataFrame 中 只 提取 出 原始 电影 标题 ， 并 创建 一 个 名 为 titiles 的 TempView。 随 
在 Spark 中 注册 上 面 的 函数 ， 之 后 调用 select 语句 来 对 提取 出 的 内 容 都 调用 该 函数 。 


val raw title = org.sparksamples.Util.getMovieDataDF() .select ("name") 





raw_title.show!() 





raw_title.createOrReplaceTempView ("titles") 
Util.spark.udf.register ("processRegex", processRegex _) 


val processed titles 


processed titles.show!() 


Util.spark.sql("select processRegex(name) from titles") 


val titles_rdd = processed titles.rdd.map(r => (0) .toString) 
titles_rdd.take(5).foreach (println) 


Brintlin(titles rdgd fiket.()) 


其 输出 如 下 : 
// raw _ title.show() 的 输出 名 
让 
| UDF (name) 
RN 
Toy Story 
GoldenEye 
Four Rooms 
Get Shorty 
Copycat 


Shanghai Triad 
Twelve Monkeys 

Babe 

Dead Man Walking 
Richard III 

Seven 

Usual Suspects, The 
Mighty Aphrodite 
Postino, Il 

Mr. Holland's Opus 
French Twist 

From Dusk Till Dawn 
White Balloon, The 
Antonia's Line 
Angels and Insects 


// titles_ rdd.take(5).foreach(println) 


Toy Story 

GoldenEye 

Four Rooms 
Get Shorty 
Copycat 
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下 面 在 原始 标题 上 应 用 上 面 的 函数 , 并 通过 分 词 将 标题 转换 为 词 项 。 我 们 将 使 用 前 面 介绍 过 
的 空白 分 词法 。 

将 titles 分 为 单个 单词 : 

val title terms = titles_rdd.map (x => x.split("")) 


title terms.take(5).foreach(_.foreach(println)) 
Println(title terms.count () ) 


简单 分 词 的 结果 如 下 : 














Toy 
Story 


GoldenEye 
Four 
Rooms 

Get 


Shorty 
Copycat 


接 下 来 对 单词 的 RDD 进 行 转换 ,并 得 到 总 单词 数 , 即 获得 所 有 单词 的 集合 以 及 Dead 和 Rooms 
对 应 的 索引 。 


Scala 代码 如 下 : 





val all_ terms_dic = new ListBuffer[String]() 

val all_ terms = title terms.flatMap (title terms => 
title_ terms) .distinct().collect() 

for (term <- all_ terms) { 
all_terms_dic += term 

} 

println(all_ terms_dic.length) 

println(all_ terms_dic.indexOof ("Dead")) 

println(all_ terms_dic.indexOf ("Rooms")) 


对 应 的 结果 为 : 


Total number of terms: 2645 
Index of term 'Dead': 147 
Index of term 'Rooms': 1963 


利用 Spark 的 zipwithIndex 函数 可 以 更 高 效 地 完成 上 述 步 又 。 该 函数 以 各 值 的 RDD 为 输 
入 ， 对 值 进行 合并 以 生成 一 个 新 的 键 值 对 RDD ， 其 键 为 词 项 ， 值 为 词 项 在 词 项 字典 中 的 序号 。 
我 们 会 使 用 collectAsMap 将 该 RDD 以 Python 的 aict 函数 形式 返回 到 驱动 程序 。 


Scala 代码 如 下 : 











val all_ terms withZip = title terms.flatMap (title terms => title terms) 
.distinct() .zipWithIindex() .collectAsMap () 

println(all_ terms_withZip.get ("Dead")) 

println(all_ terms_withZip.get ("Rooms")) 
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其 结果 如 下 : 


Index of term 'Dead': 147 
Index of term 'Rooms': 1963 


2. 从 标题 创建 稀 琉 向 量 

最 后 一 步 是 创建 一 个 函数 。 该 函数 将 一 个 词 项 集合 转换 为 一 个 稀 朴 向 量 表 示 。 具 体 实现 时 ， 
我 们 会 创建 一 个 空白 稀 玻 和 矩阵。 该 矩阵 只 有 一 行列 数 为 字典 中 的 总 词 项 数 。 之 后 我 们 会 逐一 检 
查 输入 集合 中 的 每 一 个 词 项 , 看 它 是 否 在 词 项 字典 中 。 如 果 在 ， 就 给 矩阵 里 相应 序数 位 置 的 向 量 
赋值 1。 


提取 词 项 的 Scala 代码 如 下 : 









































def create vector(title terms: Array[String], 
all_terms_dic: ListBuffer[String]): CSCMatrix[Int] = { 
var idx = 0 
val x = CSCMatrix.zeros[Int] (1, all_ terms_dic.length) 
title terms.foreach(i => { 
if (all_ terms_dic.contains(i)) { 
idx = all_terms_dic.indexOf (i) 
x.update(0, idx, 1) 
} 
} 
return x 
} 
val term vectors = title terms.map(title terms => create vector(title terms, 
all_terms_dic)) 
term vectors.take(5).foreach (println) 


这 会 输出 前 5 个 稀 玻 向 量 : 


1 x 2453 CSCMatrix 
(0,622) 1 

(0,1326) 1 

1 x 2453 CSCMatrix 
(0,418) 1 

1 x 2453 CSCMatrix 
(0,729) 1 

(0,996) 1 

1 x 2453 CSCMatrix 
(0,433) 1 

(0,1414) 1 

1 x 2453 CSCMatrix 
(0,1559) 1 


对 应 的 代码 位 于 : 
各 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/scala/ 
2.0.0/src/main/scala/org/sparksamples/exploredataset/explore movies.Scala。 


4.4 
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现在 每 一 个 电影 标题 都 被 转换 为 一 个 稀 玻 向 量 。 可 以 看 到 , 那些 提取 出 了 2 个 词 项 的 标题 所 








对 应 的 向 量 里 也 是 2 个 非 零 元 素 , 而 只 提取 了 1 个 词 项 的 标题 则 只 对 应 到 了 1 个 非 零 元 素 , 等 等 。 


字典 的 广播 变量 。 现 实 场景 中 ， 该 字典 可 


@ 


4.4.5 正则 化 特征 

















在 将 特征 提取 为 向 量 形式 后 ， 一 种 常见 的 预 处 理 方 式 是 将 
\' 想 是 对 各 个 数值 特征 进行 转换 ,以 将 它们 的 值 域 规范 到 一 个 标准 区 间 内 。 正则 化 的 方 





























其 背后 的 忆 
法 有 如 下 几 种 。 




















或 是 进行 标准 的 正则 转换 ( 以 使 得 





口 


口 正则 化 特征 : 这 实际 上 是 对 数据 集中 的 单个 特征 进行 转换 ， 比 如 减 去 平均 值 〈 特 生 
该 特征 的 平均 值 和 标准 差分 别 为 0 和 1 )。 
正则 化 特征 向 量 : 这 通常 是 对 数据 中 某 一 行 的 所 有 特 


注意 ， 上 面 示例 代码 中 用 Spatk 的 broadcast 函数 来 创建 了 一 个 包含 词 项 
极 大 ， 故 不 适合 使 用 广播 变量 。 


各 数值 数据 正则 化 (normalization )。 








F 对 齐 ) 





征 进行 转换 ， 以 让 转换 后 的 特征 向 


量 的 长 度 标准 化 。 也 就 是 缩放 向 量 中 的 各 个 特征 ， 以 使 得 向 量 的 范 数 为 1 ( 常 指 L1 范 数 


或 L2 范 数 )。 





下 面 将 用 第 二 种 情况 举例 说 明 。 向 量 正则 化 可 通过 numpy 的 norm 函数 来 实现 。 具 体 来 说 ， 





先 计算 一 个 随机 向 量 的 L2 范 数 ， 然 后 用 向 量 中 的 每 一 个 元 素 都 除 以 该 范 数 ， 从 而 得 到 正则 化 后 


的 向 量 : 


// val vector = DenseVector.rand(10) 


val vector = DenseVector(0.49671415, -0.1382643, 
0.64768854, 1.52302986, -0.23415337, -0.23413696, 
0.76743473, -0.46947439, 0.54256004) 

val norm_ fact = norm(vector) 


Val vec = Vector / norm fact 
println (norm fact) 
println(vec) 


其 输出 如 下 : 


2.5908023998401077 

DenseVector (0.19172212826059407， 
0.24999534508690138, 0.5878602938201672, 
-0.09037237267282516, 0.6095458380374597, 
-0.18120810372453483, 0.20941776186153152) 


用 MLlib 正则 化 特征 
Spark 在 其 MLlib 机 器 学 习 库 中 内 置 了 一 些 函 数 用 于 特 和 





下 92.413825， 


-0.053367366036303286, 
-0.09037870661786127, 
0.2962150760889223, 


E 的 缩放 和 标准 化 ， 包 括 应 用 标准 正 


态 变换 的 standardscaler， 以 及 提供 与 上 述 示 例 相 同 的 特征 向 量 正则 化 的 Normalizer。 
在 后 面 几 章 中 ， 我 们 会 探索 这 些 函 数 的 使 用 方法 。 但 现在 ， 我 们 只 简单 比较 一 下 MLlib 的 
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Normalizer 与 我 们 自己 函数 的 结 


from pyspark.mllib.feature import Normalizer 
normalizer Normalizer() 
vector sc.parallelize([x 


在 导入 所 需 的 类 后 


J 
， 要 初始 化 Normalizer (其 


Spark 时 ， 大 部 分 情况 下 Normalizer 所 需 的 输入 为 一 个 








路 认 使 用 与 之 前 相同 的 L2 范 数 )。 注 意 用 
RDD ( 它 包 含 numpy 数组 或 MLlib 向 


量 )。 作 为 举例 ， 我 们 会 从 x 向 量 创建 一 个 单元 素 的 RDD。 





之 后 将 会 对 我 们 的 RDD 调用 Normalizer 的 transform 


量 ， 可 通过 调用 first 回 到 驱动 程序 。 


numpy 数组 。 


函数 将 癌 量 返 


normalized x mllib 


最 后 ， 像 之 前 一 样 输 出 结果 ， 并 做 个 比较 : 








9 


print "x:\n%Ss" $ x 

print "2-Norm of x: %2,.4f" % norm x 2 

print "Normalized x MLlib:\n%$s" % normalized . 
print "2-Norm of normalizeqd x_ mllib: %2.4f" 


其 结果 会 和 之 前 用 我 们 自己 的 代码 时 的 完全 相同 。 
MLlib 内 置 的 函数 无 疑 会 更 方便 和 高 效 ! 等 效 的 Scala 








object FeatureNormalizer { 


def main(args: Array[String]): Unit = { 


normalizer.transform(vector) 


o 
五 


函数 。 由 于 该 RDD 只 含有 一 个 向 
接着 调用 toAarray 也 数 将 该 向 量 转 换 为 


.first().toArray() 


x_ mllib 
np.linalg.norm(normalized x mllib) 


但 不 管 怎 样 , 相 比 自己 编写 的 函数 ,使 用 
实现 如 下 : 





val Vv = Vectors.dense(0.49671415, -0.1382643, 0.64768854, 1.52302986, 
0 234T5337. =00234L3696% :579212.82 
0.76743473, -0.46947439, 0.54256004) 


val normalizer new Normalizer (2) 
val norm_ op 
println (norm op) 


} 
} 


对 应 的 输出 如 下 : 


[0 . 
-0 . 
-0 . 
-0 . 
-0 . 


0 


normalizer.transform(v) 


19172212826059407， 
09037870661786127， 


18120810372453483,0.20941776186153152] 


对 应 的 代码 位 于 : 


053367366036303286,0.24999534508690138,0.5878602938201672, 


09037237267282516,0.6095458380374597,0.2962150760889223, 


https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/scala/ 


2.0.0/src/main/scala/org/sparksamples/FeatureNormalizer.scala。 
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4.4.6 用 软件 包 提 取 特 征 


虽然 上 面 已 经 提 到 了 不 少 特 征 提取 方法 , 但 每 次 都 要 为 这 些 常见 任务 编写 代码 并 不 轻松 。 当 
然 , 我 们 可 以 为 之 创建 可 重用 的 代码 库 , 但 是 也 可 以 依赖 现 有 的 工具 和 软件 包 。 Spark 支持 Scala、 
Java 和 Python 的 绑 定 ， 所 以 我 们 可 以 利用 这 些 语言 所 开发 的 软件 包 ， 借 助 其 中 完善 的 工具 箱 来 
实现 特征 的 处 理 和 提取 以 及 向 量 表 示 。 进行 特征 提取 时 , 可 借助 的 软件 包 有 scikitlearn 、gensim、 
scikit-image、matplotlib 、Python 的 NLTK、 用 Java 编写 的 OpenNLP， 以 及 用 Scala 编写 的 Breeze 
和 Chalk。 实 际 上 ，Breeze 自 Spark 1.0 开始 就 成 为 Spark MLlib 的 一 部 分 了 。 后 几 章 也 会 介绍 如 
何 使 用 Breeze 的 线性 代数 功能 。 


1. IDF 


IDF 全 称 为 inverse document frequency， 即 道 文本 频率 。 它 用 于 衡量 一 个 单词 提供 的 信息 量 
有 和 多少: 它 在 语料库 中 是 常见 还 是 少见 。 假 设 语料库 中 的 总 文档 数 为 ID|， 其 中 出 现 过 该 单词 1 的 
文档 数 为 DF(1,D)， 则 IDF(1,D) 为 IDIt1 除 以 DF(1,D)+1 所 得 到 的 商 的 log 值 。 

































































2. TF-IDF 

















TF-IDF 全 称 为 term frequency-inverse document frequency， 即 词 频 - 逆 文本 频率 。 它 是 一 个 静 
态 统计 值 , 用 于 体现 一 个 单词 对 于 一 个 文档 集 或 语料库 中 的 某 一 个 文档 的 重要 程度 。 它 在 信息 检 
索 和 文本 挖掘 中 常用 作 权 重 。TF-IDEF 值 与 相应 单词 在 某 个 文档 中 出 现 的 次 数 成 正比 ， 与 其 在 整 
个 文档 集中 出 现 的 次 数 成 反比 ， 从 而 对 常见 的 单词 进行 修正 。 


在 搜索 引 敬 和 文字 处 理 引擎 中 ,，TF-IDF 用 于 对 文档 与 用 户 查 询 的 关联 程度 进行 评分 和 排序 。 


最 简单 的 排序 方法 是 对 查询 中 的 每 个 词 对 应 的 TF-IDF 值 求 和 。 其 他 更 复杂 的 排序 方法 是 该 
方法 的 衍生 版 本 。 


在 计算 词 频 时 ， 即 TF(4,4d)， 可 以 采用 该 词 在 对 应 文档 中 的 原始 频率 : 词 1 在 文档 a 中 出 现 的 
次 数 。 如 果 词 的 原始 频率 为 ht,4)， 那 么 最 简单 的 TF 表示 为 TF(1,q)=fit,q。 


Spark 中 ，TF(t,q) 经 散 列 运算 得 出 。 原 始 词 频 会 经 散 列 运算 映射 为 该 词 的 索引 序号 。 词 频 则 
经 该 索引 得 出 。 


请 参考 如 下 资源 : 


口 https://spark.apache.org/docs/1.6.0/api/scala/index.html#org.apache.spark.mllib.feature.HashingTF 
D https://en.wikipedia.org/wiki/Tf-idf 
口 https://spark.apache.org/docs/1.6.0/mllib-feature-extraction.html 


TF-IDF 是 给 定 词 的 TF 值 与 IDF 值 的 乘积 : 


TF-_IDF(4d,D) = TF(4d)*IDF(LD) 
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如 下 代码 计算 了 Apache Spark 源码 包 的 README.md 文件 中 每 个 词 的 TF-IDF 值 : 


object TfIidfSample { 
def main(args: Array[String]) { 
// 将 file 取 值 更 新 为 你 的 本 机 上 README .md 的 实际 路 径 
val file = Util.SPARK_HOME + "/README.md" 


val spConfig = (new SparkConf) .setMaster ("local") .setAppName ("SparkApp") 
val sc = new SparkContext (spConfig) 

val documents: RDD[Seql[lString]] = sc.textFile(file) .map(_.split(" ").toSeq) 
print ("Documents Size:" + documents.count) 


val hashingTF = new HashingTF () 
val tf = hashingTF.transform(documents) 
fo ‘(tf = ) 
println(s™ Str ™) 
} 


tf.cache() 

val idf = new IDF().fit(tf) 

val tfidf = idf.transform(tf) 
println("tfidf size : " + tfidf.count) 


for (相册 下 二 “es tf1AEY 区 
Drintln(s"Stftidqf ") 
} 





} 
} 


对 应 的 代码 位 于 : 
0 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/scala/ 
2.0.0/src/main/scala/org/sparksamples/featureext/TfIdfSample.scala。 


3. Word2Vec 








Word2Vec 以 文本 数据 为 输入 ， 输 出 各 个 词 对 应 的 特征 向 量 。 它 从 用 于 训练 的 文本 数据 创建 一 
个 词典 文件 ， 并 学 习 词 的 向 量 表示 。 上 述 特征 向量 可 用 于 自然 语言 处 理 和 机 器 学 习 的 多 种 应 用 中 。 









































检测 所 学 特征 向 量 效 果 的 最 简单 方法 是 针对 指定 的 词 ， 找 到 在 特征 向 量 表示 上 最 接近 的 词 。 





Spark 中 的 Word2Vec 实现 会 计算 各 个 词 的 分 布 式 向 量 表示 。 相 比 于 Google 的 单机 实现 ， 该 
实现 的 可 扩展 性 更 高 。 该 单机 实现 参见 : https://code.google.com/archive/p/word2vec/。 




















Word2Vec 可 通过 两 种 学 习 算 法 来 实现 : 连续 词 袋 和 连续 skip-gram 模型 。 





4. skip-gram 模型 


skip-gram 模型 的 训练 目标 是 找到 对 于 预测 一 个 文档 或 句子 中 相 邻 词 而 言 有 用 的 表示 。 已 知 
一 个 词 序列 wi, wz, w3,…, w:， 该 模型 最 大 化 如 下 平均 对 数 概 率 : 


1 Se 


T > log, (w,,, /w,) 


t=0 -cj<c,j#0 
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其 中 c 是 训练 上 下 文 的 大 小 (该 值 可 以 是 中 心 词 wi 的 函数 )。c 越 大 ， 训 练 样本 越 多 ， 训 练 准确 
度 就 越 高 ， 但 训练 时 间 也 更 长 。skip-gram 的 基本 定义 式 里 用 softmax 函数 来 求 pw | wD) : 


exp(v’, 了 ) 


2 exp(v,T,) 

?yw 和 如是 风向 量 表示 的 输入 和 输出 ， 丈 是 词典 大 小 ， 即 总 的 词 的 数目 。 
给 定单 词 w;，Spark 采用 了 Hierarchical Softmax 方法 来 预测 wi。 

如 下 例子 展示 了 在 Spark 中 如 何 创建 词 向 量 : 


object ConvertWordsToVectors { 

def main(args: Array[String]) { 
val file = "/home/ubuntu/work/ml-resources/spark-ml/Chapter_04/data/text8_10000" 
val conf = new SparkConf () .setMaster("local").setAppName ("Word2Vector") 
val sc = new SparkContext (conf) 
val input = sc.textFile(file) .map(line => line.split(" ").toSeq) 
val word2vec = new Word2Vec() 
val model = word2vec.fit (input) 
val vectors = model.getVectors 
vectors foreach ((t2) => println(t2._1 + "-->" + t2. 2.mkString(" "))) 





p(w, /w,) = 





对 应 的 代码 位 于 : 
0 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/scala/ 
2.0.0/src/main/scala/org/sparksamples/featureext/Convert WordsToVectors.scala。 


其 输出 如 下 : 
ideas --> 0.0036772825 - 9.474439E-4 0.0018383651 - 6.24215E-4 
-0.0042944895 - 5.839545E-4 - 0.004661157 - 0.0024960344 0.0046632644 
-0.00237432 - 5.5691406E-5 - 0.0033026629 0.0032463844 - 0.0019799764 
-0.0016042799 0.0016129494 - 4.099998E-4 0.0031266063 - 0.0051537985 
-5.3287676E-4 1.983675E-4 - 1.9737136E-5 
5. standard scalar 
standard scalar 将 数据 特征 标准 化 。 上 有 具体 来 说 ， 它 会 先 从 训练 数据 的 抽样 中 得 出 某 一 列 属性 
的 平均 值 和 方差 ， 然 后 对 所 有 训练 数据 的 该 属性 均 减 去 该 平均 值 (可 选 ) 后 再 除 以 方差 ， 从 而 使 
得 该 属性 值 标 准 化 。 这 是 很 常见 的 预 处 理 步骤 之 一 。 
标准 化 有 助 于 优化 阶段 的 收 僵 ,另外 也 降低 了 方差 很 大 的 属性 对 模型 训练 的 影响 。 
standardsScalar 类 的 构造 函数 的 参数 如 下 。 


new StandardScaler (withMean: Boolean, withStd: Boolean) 
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口 withMean: 默认 False。 在 缩放 前 将 数据 参照 平均 值 中 心 对 齐 。 在 此 过 程 中 会 生成 密集 





型 输出 ， 若 输入 为 稀 琉 型 则 会 引发 异常 。 





D withstd: 默认 True。 将 数据 缩放 到 标准 差 。 


代码 如 下 : 


object StandardScalarSample { 


def main(args: Array[String]) { 


val conf = new SparkConf () .setMaster("local").setAppName ("Word2Vector") 
val sc = new SparkContext (conf) 
val data = MLUtils.loadLibSsVvMFilel(sc, 

org.sparksamples.Util.SPARK HOME + "/data/mllib/sample_libsvm data.txt") 


val Scaler1l1 = new StandardScaler().fit(data.map(x => x.features)) 
val scaler2 = new StandardScaler (withMean = true, 

withSstd = true) .fit(data.map (x => x.features)) 
// scaler3 与 scaler2 完全 相同 ， 将 进行 相同 的 转换 操作 


Val Scaler3 = new StandardScalerModel (Scaler2.stdq，Sscaler2 .mean) 


// datal 为 单位 方差 
val datal = data.map(x => (x.label, scalerl.transform(x.features))) 
printlin(datal.first()) 


// 需要 先 将 特征 转 为 密集 向 量 ， 稀 踊 向 量 不 支持 均值 为 0 时 做 转换 

// data2 为 单位 方差 ,均值 为 0 

// data2 will be unit variance and zero mean. 

val data2 = data.map(x => (x.label, 
scaler2.transform(Vectors.dense(x.features.toArray)))) 

println(data2.first()) 


对 应 的 代码 位 于 : 


0 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 04/scala/ 


2.0.0/src/main/scala/org/sparksamples/featureext/StandardScalarSample.scala, 


4.5 小结 





本 童 介绍 了 如 何 寻 找 可 用 于 各 种 机 带 学 习 模型 的 常见 公开 数据 








,学 习 了 如 何 导入 、 处 理 和 


清理 数据 ， 以 及 如 何 应 用 常见 方法 将 原始 数据 转换 为 特征 向 量 以 供 模型 训练 。 








下 一 章 将 介绍 推荐 系统 的 基本 概念 , 创建 推荐 模型 的 方法 ,如 何 使 用 模型 来 做 预测 ,以 及 如 





何 评价 模型 。 
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前 几 章 介 绍 了 数据 处 理 和 特征 提取 的 一 些 基本 概念 。 从 本 章 开 始 ， 我 们 将 从 推荐 引擎 开始 ， 
详细 探讨 各 种 机 器 学 习 模型 。 


折 


























E 荐 引擎 或 许 是 大 众 所 知 的 最 佳 机 器 学 习 模 型 之 一 。 人 们 或 许 并 不 知道 它 到 底 是 什么 , 但 在 


使 用 Amazon、Netflix、YouTube、Twitter、LinkedIn 和 Facebook 等 流行 站 点 的 时 候 ， 就 很 可 能 
已 经 接触 过 了 。 推 荐 是 这 些 网 站 背后 的 核心 组 件 之 一 ， 有 时 还 是 一 个 重要 的 收入 来 源 。 


推荐 引擎 背后 的 想法 是 预测 人 们 可 能 喜好 的 物品 并 通过 探寻 物品 之 间 的 联系 来 辅助 这 个 过 





推荐 























程 。 从 这 点 上 来 说 ， 它 和 同样 也 做 预测 的 搜索 引擎 相似 ， 而 且 往往 还 互补 。 但 与 搜索 引擎 不 同 ， 








| 警 试 图 向 人 们 呈现 的 相关 内 容 并 不 一 定 就 是 人 们 所 搜索 的 , 其 返回 的 某 些 结果 甚至 人 们 都 


没 听 说 过 。 

一 般 来 讨 ， 推 荐 引擎 试图 对 用 户 与 某 类 物品 之 间 的 联系 建 模 。 比 如 ,第 3 章 MovieStream 的 
案例 中 , 我 们 可 使 用 推荐 引擎 来 告诉 用 户 有 哪些 电影 他 们 可 能 会 喜欢 。 如 果 这 点 做 得 很 好 ,就 能 
吸引 用 户 持续 使 用 我 们 的 服务 。 这 对 双方 都 有 好 处 。 同 样 ， 如 果 能 准确 告诉 用 户 有 哪些 电影 与 某 
一 电影 相关 ,就 能 方便 用 户 在 站 点 上 找到 更 多 感 兴 趣 的 信息 。 这 也 能 提升 用 户 的 体验 、 参 与 度 以 
及 站 点 内 容 对 用 户 的 吸引 力 。 

实际 上 , 推荐 引擎 的 应 用 并 不 限于 电影 、 书 籍 或 是 产品 。 本 章 内 容 同 样 适用 于 用 户 与 物品 之 
间 的 关系 或 社交 网 络 中 用 户 与 用 户 之 间 的 关系 ， 比 方 说 向 用 户 推 荐 他 们 可 能 认识 或 关注 的 用 户 。 

推荐 引擎 很 适合 如 下 两 类 常见 场景 ( 两 者 可 兼 有 )。 

口 可 选项 众多 : 可 选 的 物品 越 多 ， 用 户 就 越 难 找 到 想 要 的 物品 。 如 果 用 户 知道 他 们 想 要 什 












































么 ， 那 么 搜索 能 有 所 帮助 。 然 而 最 适合 的 物品 往往 并 不 为 用 户 所 事先 知道 。 这 时 ， 通 过 
向 用 户 推 荐 相关 物品 ， 其 中 某 些 可 能 用 户 事先 不 知道 ， 将 能 帮助 他 们 发 现 新 物品 。 





口 偏 个 人 喜好 : 当 人 们 主要 根据 个 人 喜好 来 选择 物品 时 ， 推 荐 引擎 能 利用 集体 智慧 ， 根 据 











其 他 有 类 似 喜 好 用 户 的 信息 来 帮助 他 们 发 现 所 需 物 品 。 


本 章 将 涉及 如 下 内 容 : 
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口 介绍 推荐 引擎 的 类 型 ; 

口 用 用 户 偏好 数据 来 建立 一 个 推荐 模型 ; 

口 使 用 上 述 模型 来 为 用 户 进行 推荐 和 求 指定 物品 的 类 似 物 品 〈 即 相关 物品 ); 
D 应 用 标准 的 评 佑 指标 来 评估 该 模型 的 预测 能 力 。 











5.1 推荐 模型 的 分 类 


推荐 系统 的 研究 已 经 相当 广泛 , 也 存在 很 多 设计 方法 , 其 中 最 为 流行 的 两 种 方法 是 基于 内 容 
的 过 滤 和 协同 过 滤 。 另 外 , 排名 模型 等 其 他 方法 近期 也 受到 不 少 关注 。 实 践 中 的 方案 很 多 是 综合 
性 的 ， 它 们 将 多 种 方法 的 元 素 合 并 到 一 个 模型 中 或 模型 组 合 中 。 














5.1.1 基于 内 容 的 过 滤 


基于 内 容 的 过 滤 利 用 物品 的 内 容 或 是 属性 信息 以 及 某 种 相似 度 定义 , 来 求 出 与 该 物品 类 似 的 
物品 。 这 些 属 性 值 通常 是 文本 内 容 ， 比 如 标题 、 名 称 、 标 签 及 该 物品 的 其 他 元 数据 。 对 多 媒体 来 
说 ， 可 能 还 涉及 从 音频 或 视频 中 提取 的 其 他 属性 。 


类 似 地, 对 用 户 的 推荐 可 以 根据 用 户 的 属性 或 是 描述 得 出 , 之 后 再 通过 相同 的 相似 度 定义 来 
与 物品 属性 做 匹配 。 比 如 , 用 户 可 以 表示 为 他 所 接触 过 的 各 物品 属性 的 综合 。 该 表示 可 作为 该 用 
户 的 一 种 描述 。 之 后 可 以 用 它 来 与 物品 的 属性 进行 比较 ， 以 找 出 符合 用 户 属性 的 物品 。 


创建 用 户 或 物品 属性 的 例子 如 下 。 


口 描述 电影 属性 可 用 演员 、 流 派 、 流 行 度 度 等 属性 。 

口 描述 用 户 属性 可 用 人 口 统计 学 信息 或 对 特定 问题 的 回答 。 

口 用 上 述 描述 来 过 滤 相 关内 容 ， 以 建立 用 户 和 物品 的 关联 关系 。 

口 计算 新 物品 与 用 户 属性 的 相似 度 。 具 体 可 根据 两 者 重生 的 关键 词 ， 用 Dice 系数 ( Dice 
coefficient ) 表示 。 也 存在 其 他 计算 方法 。 

























































































5.1.2 协同 过 滤 
协同 过 滤 仅 依靠 以 往 的 行为 ， 比 如 已 有 的 评级 或 交易 。 其 内 在 思想 是 相似 度 的 定义 。 


其 基本 思路 是 用 户 会 对 物品 进行 显 式 或 隐 式 的 评级 。 过 去 表现 出 相似 偏好 的 用 户 在 未 来 的 偏 
好 也 会 类 似 。 

在 基于 用 户 的 方法 中 ,如 果 两 个 用 户 表现 出 相似 的 偏好 ， 即 对 相同 物品 的 偏好 大 体 相同 , 那 
就 认为 他 们 的 兴趣 类 似 。 要 对 他 们 中 的 一 个 用 户 推 荐 一 个 未 知 物品 , 便 可 选取 若干 与 其 类 似 的 用 
户 , 并 根据 他 们 的 喜好 计算 出 对 各 个 物品 的 综合 得 分 , 再 根据 得 分 来 推荐 物品 。 其 整体 的 逻辑 是 ， 


























5.1 推荐 模型 的 分 类 129 





如 果 其 他 用 户 也 偏好 某 些 物 品 ， 那 这 些 物 上 


了 


很 可 能 值得 推荐 。 


互 





同样 , 也 可 以 借助 基于 物品 的 方法 来 做 推荐 。 这 种 方法 通常 根据 现 有 用 户 对 物品 的 偏好 或 是 
评级 情况 , 来 计算 物品 之 间 的 某 种 相似 度 。 这 时 , 相似 用 户 评级 相同 的 那些 物品 会 被 认为 更 相近 。 





一 旦 有 了 物品 之 间 的 相似 度 , 便 可 用 月 


户 接 触 过 的 物品 来 表示 这 个 用 户 , 然后 找 出 和 这 些 已 知 物 





品 相似 的 物品 ,并 将 这 些 物 品 推荐 给 用 户 。 同 样 ， 与 已 有 物品 相似 的 物品 被 用 来 生成 一 个 综合 得 
分 ， 而 该 得 分 用 于 评估 未 知 物品 的 相似 度 。 


基于 用 户 或 物品 的 方法 的 得 分 , 取决 于 若干 用 户 或 物品 之 间 依 据 相 似 度 所 构成 的 集合 ( 即 邻 











居 )， 故 它们 也 常 被 称 为 最 近邻 模型 。 








一 种 传统 的 协同 过 滤 算 法 会 将 用 户 表示 为 对 应 各 个 物品 的 六 维 向 量 ，N 为 不 同 物品 的 个 数 。 
该 向 量 的 各 元 素 对 应 用 户 对 各 物品 的 喜好 。 要 计算 最 喜好 的 物品 , 该 算法 通常 会 对 各 元 素 乘 以 反 








转 频 率 ， 从 而 使 得 不 那么 流行 的 物品 更 相关 。 对 多 数 用 户 来 说 ， 该 向 量 十 分 稀 琉 。 算 法 会 根据 少 
数 与 该 用 户 相似 的 用 户 来 生成 推荐 。 它 会 衡量 两 个 用 户 之 间 的 相似 度 , 常见 的 方法 是 度量 两 用 户 





向 量 之 间 夹 角 的 余弦 值 。 























广 a 
CE Cg |8| 











最 后 ， 也 存在 不 少 基于 模型 的 方法 试图 对 “用 户 -物品 ”偏好 建 模 。 这 样 ， 对 未 知 “ 用 户 -- 
物品 ”组 合 应 用 该 模型 ， 便 可 得 出 新 的 偏好 。 








协同 过 滤 的 两 种 主要 方式 如 下 。 


口 近邻 模型 


a 面向 用 户 的 方法 ， 其 核心 为 计算 用 户 之 间 的 关联 。 





@ 面向 物品 的 方法 ， 其 核心 为 计算 待 推荐 物品 与 该 用 户 已 评级 过 的 物品 之 间 的 关联 。 
甸 用 余弦 值 表 示 上 述 的 用 户 关联 ， 该 值 即 皮尔 逊 相关 系数 (Pearson correlation coefficients ) 。 


隐 变 量 模型 


口 











日 该 类 模型 通过 隐 变 量 来 描述 用 户 对 物品 的 评级 。 

晶 对 电影 而 言 ， 特 征 如 动作 片 还 是 戏剧 、 演 员 类 型 等 ， 是 隐 变 量 。 

里 对 用 户 而 言 ， 特 征 如 评分 ， 是 隐 变 量 。 

量 常见 的 实现 类 型 有 神经 网 络 、 隐 含 狄 利克 雷 分 布 (latentDirichlet allocation ) 和 和 矩阵 分 解 。 























下 一 方 将 会 讨论 矩阵 分 解 模型 。 
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5.1.3 ”和 拢 阵 分 解 

Spark 推荐 模型 库 当 前 只 包含 基于 矩阵 分 解 (matrix factorization ) 的 实现 ， 由 此 我 们 也 将 重 
点 关注 这 类 模型 。 它 们 有 吸引 人 的 地 方 。 首 先 ， 这 些 模型 在 协同 过 滤 中 的 表现 十 分 出 色 ， 而 在 
Netflix Prize 等 知名 比赛 中 的 表现 也 很 拔尖 。 




















和 矩阵 分 解 做 如 下 假设 。 

口 每 个 用 户 可 描述 为 n 个 属性 或 特征 。 比 如 ， 第 一 个 特征 可 以 对 应 某 个 用 户 对 动作 片 的 喜 
好 程度 。 

口 每 个 物品 可 描述 为 n 个 属性 或 特征 。 比 如 ， 接 上 一 点 ， 第 一 个 特征 可 以 对 应 某 部 电影 与 
纯 动 作 片 的 接近 程度 。 

口 将 用 户 和 物品 对 应 的 属性 相 乘 后 求 和 ， 该 值 可 能 很 接近 用 户 会 对 该 物品 的 评级 。 














关于 Netflix Prize 比赛 中 表现 最 好 的 模型 的 更 多 信息 , 可 参见 : https://medium.com/netflix-techblog/ 
netflix-recommendations-beyond-the-5-stars-part-1-55838468f429。 


1. 显 式 矩 阵 分 解 
当 要 处 理 的 数据 是 由 用 户 所 提供 的 自身 的 偏好 数据 时 , 这 些 数 据 被 称 作 显 式 偏好 数据 。 这 类 


数据 包括 如 物品 评级 、 




















赞 、 喜 欢 等 用 户 对 物品 的 评价 。 


这 些 数据 可 以 转换 为 以 用 户 为 行 、 物 品 为 列 的 二 维和 矩阵 。 矩 阵 的 每 一 个 数据 表示 某 个 用 户 对 
特定 物品 的 偏好 。 大 部 分 情况 下 单个 用 户 只 会 和 少 部 分 物品 接触 , 所 以 该 矩阵 只 有 少 部 分 数据 非 
零 ， 即 该 矩阵 很 稀 玻 。 


举 个 简单 的 例子 ， 假 设 我 们 有 如 下 用 户 对 电影 的 评级 数据 : 


Tom, Star Wars, 5 


Jane, 
Bill, 
Jane, 
Bill, 


Titanic, 4 
Batman, 3 

Star Wars, 
Titanic, 3 


2 


它们 可 转 为 如 下 评级 矩阵 : 


a 《蝙蝠 侠 》 《星球 大 战 》 《泰坦 尼克 号 》 





Jane 





Tom 























一 个 简单 的 电影 评级 矩阵 


5.1 ”推荐 模型 的 分 类 131 





对 这 个 矩阵 建 模 ， 可 以 采用 和 矩阵 分 解 (或 矩阵 补 全 ) 的 方式 。 具 体 就 是 找 出 两 个 低 维度 的 矩 
阵 , 使 得 它们 的 乘积 是 原始 的 矩阵 。 因 此 这 也 是 一 种 降 维 技术 。 假 设 我 们 的 用 户 和 物品 数目 分 别 
是 U 和 7， 那 对 应 的 “用 户 -物品 ”矩阵 的 维度 为 U x T， 如 下 图 所 示 。 
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一 个 稀 琉 的 评级 矩阵 


要 找到 和 “用 户 -物品 ”矩阵 近似 的 维 ( 低 阶 ) 和 矩阵， 最终 要 求 出 如 下 两 个 矩阵 : 一 个 用 
于 表示 用 户 的 U x 磊 维 矩阵 ， 以 及 一 个 表征 物品 的 7 x 大 维 矩阵 。 这 两 个 矩阵 也 称 作 因 子 和 矩阵 。 
它们 的 乘积 便 是 原始 评级 矩阵 的 一 个 近似 。 值 得 注意 的 是 ,原始 评级 矩阵 通常 很 稀 琉 ,但 因子 矩 
阵 却 是 稠密 的 ， 如 下 图 所 示 。 








人 计生 











肝 杰 好 红 时 加 te ed 





用 户 因 子 矩 阵 和 物品 因子 矩阵 
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这 类 模型 试图 发 现 对 应 “用 户 -物品 ”矩阵 内 在 行为 结构 的 隐 含 特征 (这 里 表示 为 因子 矩阵 )， 
所 以 也 把 它们 称 为 隐 特 征 模型 。 隐 含 特征 或 因子 不 能 直接 解释 , 但 它们 可 能 表示 了 某 些 含义 ， 比 
如 用 户 对 某 个 导演 、 电 影 类 型 、 电 影 风 格 或 蘑 些 演员 的 偏好 。 


由 于 对 “用 户 -物品 ”矩阵 直接 建 模 ， 用 这 些 模型 进行 预测 也 相对 直接 : 要 计算 给 定 用 户 对 
某 个 物品 的 预计 评级 ， 就 从 用 户 因 子 和 矩阵 和 物品 因子 矩阵 分 别 选 取 相应 的 行 ( 用户 因子 向 量 ) 与 
列 〈 物 品 因子 向 量 )， 然 后 计算 两 者 的 点 积 即 可 。 


下 图 中 的 高 亮 部 分 为 因子 向 量 。 





















用 用 户 因 子 和 矩阵 和 物品 因子 矩阵 计算 推荐 


而 对 于 物品 之 间 相 似 度 的 计算 , 可 以 用 最 近邻 模型 中 用 到 的 相似 度 衡量 方法 。 不 同 的 是 , 这 
里 可 以 直接 利用 物品 因子 向 量 , 将 相似 度 计算 转换 为 对 两 物品 因子 向 量 之 间 相 似 度 的 计算 , 如 下 
图 所 示 。 


























Gs ds 








用 物品 因子 矩阵 计算 相似 度 
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因子 分 解 类 模型 的 好 处 在 于 ,一 旦 建立 了 模型 ， 对 推荐 的 求解 便 相 对 容易 。 但 其 也 有 痊 端 ， 
即 当 用 户 和 物品 的 数量 很 多 时 , 对 应 的 物品 或 用 户 的 因子 向 量 可 能 达到 数 百 万 , 这 会 成 为 对 存储 
和 计算 能 力 的 挑战 。 另 一 个 好 处 是 ， 这 类 模型 的 表现 通常 都 很 出 色 。 


Oryx 和 Prediction.io 等 项 目 专注 于 提供 大 规模 建 模 服务 , 服务 内 容 包括 基于 
王 阵 分 解 的 推荐 。 


因子 分 解 类 模型 也 存在 某 些 弱点 。 相 比 最 近邻 模型 , 这 类 模型 在 理解 和 可 解释 性 上 难度 都 有 
所 增加 。 另 外 ， 其 模型 训练 阶段 的 计算 量 也 很 大 。 


2. 隐 式 矩阵 分 解 


上 面 针 对 的 是 评级 之 类 的 显 式 偏好 数据 , 但 能 收集 到 的 偏好 数据 里 也 会 包含 大 量 的 隐 式 反馈 
数据 。 在 这 类 数据 中 , 用户 对 物品 的 偏好 不 会 直接 给 出 ,而 是 隐 含 在 用 户 与 物品 的 交互 之 中 。 二 
元 数据 ( 比如 用 户 是 否 观 看 了 某 部 电影 或 是 否 购买 了 某 个 商品 ) 和 计数 数据 ( 比如 用 户 观 看 某 部 
电影 的 次 数 ) 便 是 这 类 数据 。 = 


处 理 隐 式 数 据 的 方法 相当 多 。MLlib 实现 了 一 个 特定 方法 ， 它 将 输入 的 评级 数据 视 为 两 个 矩 
阵 : 一 个 二 元 偏好 抢 阵 己 以 及 一 个 信心 权重 矩阵 C。 


举例 来 说 ， 假 设 之 前 提 到 的 “用 户 -电影 ”评级 实际 上 是 各 用 户 观看 茶 电 影 的 次 数 ， 那 上 述 
两 个 矩阵 会 类 似 下 图 所 示 。 其 中 ， 抢 阵 P 表示 用 户 是 否 看 过 某 些 电影 ， 而 矩阵 C 则 以 观看 的 次 
数 来 表示 信心 权重 。 一 般 来 说 ， 某 个 用 户 观看 某 部 电影 的 次 数 越 多 , 我 们 对 该 用 户 的 确 喜 欢 该 电 
影 的 信心 也 就 越 强 。 




































































用 户 /物品 “ 《蝙蝠 侠 》 《星球 大 战 》《 泰 坦 尼克 号 》 用 户 /物品 。” 《蝙蝠 侠 》 《星球 大 战 》《 泰 坦 尼 克 号 》 




















个 隐 式 偏好 和 信心 矩阵 


隐 式 模型 仍然 会 创建 一 个 用 户 因子 矩阵 和 一 个 物品 因子 和 矩阵。 但 是 , 模型 所 求解 的 是 偏好 和 矩 
阵 而 非 评级 矩阵 的 近似 。 类 他 地 , 此 时 用 户 因子 向 量 和 物品 因子 向 量 的 点 积 所 得 到 的 分 数 也 不 再 
是 一 个 对 评级 的 估 值 ， 而 是 对 某 个 用 户 对 某 一 物品 偏好 的 估 值 。 该 值 的 取 值 虽 并 不 严格 地 处 于 
0~1， 但 十 分 趋 近 于 这 个 区 间 。 
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从 根本 上 说 , 矩阵 分 解 从 评级 情况 ,将 用 户 和 物品 表示 为 因子 向 量 。 若 用 户 和 物品 因子 之 间 
高 度 重合 , 则 可 表示 这 是 一 个 好 推荐 。 两 种 主要 的 数据 类 型 为 显 式 反馈 和 隐 式 反馈 ， 其 中 前 者 比 
如 评级 〈 用 稀 玻 矩 阵 表示 )， 后 者 比如 购物 历史 、 搜 索 记 录 、 浏 览 历 史 和 点 击 数据 〈 用 密集 矩阵 
表示 


3. 矩阵 分 解 的 基本 模型 

用 户 和 物品 都 会 映射 到 一 个 三维 的 联合 隐 变 量 空间 ， 有 用户- 物品 之 间 的 关系 则 表达 为 该 空间 
内 的 内 积 。 物 品 i 对 应 向 量 g，g 衡量 i 在 各 隐 变 量 上 的 程度 。 用 户 w 则 对 应 向 量 p, p 衡量 用 户 
对 物品 的 感 兴趣 程度 。 

4 和 的 点 积 qJp, 表示 了 4 和 i 之 间 的 关联 度 ， 即 用 户 的 兴趣 度 。 模 型 的 关键 是 找到 这 样 的 
向 量 g 和 p。 

要 设计 出 这 样 的 模型 ， 需 要 找 出 用 户 和 物品 之 间 的 隐 含 关系 。 这 可 首先 生成 评级 矩阵 对 应 的 
一 个 低 维和 矩阵 表示 ， 再 对 其 进行 SVD 分 解 来 求 0、S 和 PP， 然 后 将 5 的 维度 降低 到 大 维 ， 从 而 得 
到 g 和 p。 















































QS (q ' ),SiP.(p) 





现在 来 算 下 推荐 : 
六 = 人 


基于 已 有 评级 的 优化 函数 ， 即 损失 值 ， 如 下 所 示 。 系 统 通 过 在 评级 集 上 最 小 化 该 值 的 平方 根 
来 习 得 隐 向 量 4 和 P。 











min > (ri -gq p,) +4 
和 2 (u,i)ek 


学 习 算法 有 随机 梯度 下 降 法 和 最 小 二 乘法 。 
4. 最 小 二 乘法 


最 小 二 乘法 (ALS，alternating least squares ) 是 一 种 求解 矩阵 分 解 问题 的 优化 方法 。 它 功能 
强大 、 效 果 理 想 而 且 被 证 明 相 对 容易 并 行 化 。 这 使 得 它 很 适合 如 Spark 这 样 的 平台 。 在 本 书写 作 
时 ， 它 是 Spark ML 中 实现 的 唯一 推荐 模型 。 


ALS 的 实现 原理 是 迭代 式 求解 一 系列 最 小 二 乘 回归 问题 。 在 每 一 次 迭代 时 , 固定 用 户 因子 和 矩 
阵 或 是 物品 因子 矩阵 中 的 一 个 ， 然 后 用 固定 的 这 个 矩阵 以 及 评级 数据 来 更 新 另 一 个 和 矩阵。 之 后 ， 
被 更 新 的 矩阵 被 固定 住 ， 再 更 新 另外 一 个 矩阵 。 如 此 人 迭代, 直到 模型 收敛 (或 是 迭代 了 预 设 好 的 
次 数 )。 
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min > (1 -gp,) +A4 








由 于 g 和 jp 未知, 目标 函数 非 凸 函数 。 但 如 果 假 设 其 中 之 一 的 当前 值 固 定 ， 则 该 优化 问题 可 
解 。ALS 便 通 过 交替 上 述 假设 来 迭代 求解 。 








Spark 文档 的 协同 过 滤 部 分 引用 了 ALS 算法 的 核心 论文 ,对 显 式 数据 和 隐 式 
数据 的 处 理 的 组 件 背 后 使 用 的 都 是 该 算法 。 具体 参见 : http://spark.apache.org/docs/ 
latest/mllib-collaborative-filtering.html。 


如 下 代码 说 明了 如 何 从头 实 现 ALS 算法 。 
object AlternatingLeastSquares { 


var movies = 0 

var users = 0 

var features = 0 

var ITERATIONS = 0 

Val LAMBDA = 0.01 // 正则 化 因子 





private def vector(n: Int): RealVector = 
new ArrayRealVector (Array .fill (n) (math.random)) 


private def matrix(rows: Int, cols: Int): RealMatrix = 
new Array2DRowRealMatrix(Array.fill (rows, cols) (math.random)) 


def rSpace(): RealMatrix = { 
val mh = matrix(movies, features) 
val uh = matrix(users, features) 
mh.multiply (uh.transpose()) 


def rmse(targetR: RealMatrix, ms: Array[RealVector], us: Array [RealVector]): Double = { 
val r = new Array2DRowRealMatrix(movies, users) 
for (i <- 0 until movies; j <- 0 until users) { 
r.setEntry(i, j, ms(i).dotProduct (us (j))) 


val diffs = r.subtract (LargetR) 

var sumSqs = 0.0 

for (i <- 0 until movies; j <- 0 until users) { 
val diff = diffs.getEntry (i, j) 
sumSqs += diff * diff 

} 


math.saqrt (sumSgqs / (movies.toDouble * users.toDouble)) 


def update(i: Int, m: RealVector, us: Array[RealVector], R: RealMatrix): RealVector = { 
val U = us.length 
val F = us (0) .getDimension 
Var Xtx: RealMatrix = new Array2DRowRealMatrix(F, F) 
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Var Xty: RealVector = new ArrayRealVector(F) 
// 对 电影 评级 过 的 每 一 个 用 户 执行 下 列 操 作 
fOr (TA 0 UntiL Wy). : 寺 
val u = us(j) 
// 将 UU * u^t 加 到 Xtx 
Xtx = XtxX.add(u.outerProduct (u)) 
// 将 u * 评级 加 到 Xty 
Xty = Xty.add(u.mapMultiply (R.getEntry (i, j))) 
} 
// 给 对 角 线 加 上 正则 化 因子 
for: a es 0 unt RY) > 
XtX.addToEntry(d, d, LAMBDA * U) 
} 
// Cholesky 分 解法 求解 
new CholeskyDecomposition(XLX) .getSolver.solve (xty) 





def main(args: Array[String]) { 


// 随机 初始 化 变量 
movies = 100 
users = 500 
features = 10 
ITERATIONS = 5 
var slices = 2 


// 初始 化 Spack Context 


val spark = SparkSession.builder.master ("local[2]") 
.appName ("AlternatingLeastSquares") .getOrCreate() 
val sc = spark.sparkContext 


// 用 随机 数 创 建 如 下 大 小 的 真实 矩阵 

// 电影 矩阵 : 100 x 10 

// 特征 答 阵 : 500 x 10 

// 用 电影 矩阵 磁 以 用 户 矩 阵 的 转 置 

// (100 x 10 ) x (10 x 500) = 100 x 500 和 给 阵 


val r_space = rSpace() 
println("No of rows:" + r_space.getRowDimension) 
println("No of cols:" + r_space.getColumnDimension) 


// 随机 初始 化 ms 和 us 
Var ms = Array.fill (movies) (vector (features)) 
Var us = Array.fill (users) (vector (features)) 


// 迭代 式 更 新 电影 和 用 户 人 算 阵 

val Rc = sc.broadcast (r_space) 

var msb = sc.broadcast (ms) 

var usb = sc.broadcast (us) 

// 通过 在 现 有 值 上 和 迭代 来 求 ms 和 us 并 和 真实 值 比 较 
// Cholesky 分 解法 求解 
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for (iter <- 1 to ITERATIONS) { 
println(s"Iteration S$iter:") 
ms = sc.parallelize(0 until movies, slices) 
.map(i => update(i, msb.value(i), usb.value, Rc.value)) 
.Collect () 
msb = sc.broadcast (ms) // Re-broadcast ms because it was updated 
us = sc.parallelize(0 until users, slices) 
.map(i => update(i, usb.value(i), msb.value, Rc.value.transpose())) 


.Collect () 
usb = sc.broadcast (us) // Re-broadcast us because it was updated 
println("RMSE = " + rmse(r_space, ms, us)) 
printlin() 
} 
spark.stop() 


} 
以 一 个 真实 的 对 应 3 部 电影 和 3 个 用 户 的 矩阵 为 例 , 从 其 输出 中 也 可 看 到 该 迭代 求解 的 过 程 : 





Array2DRowRealMatrix 

{{0.5306513708,0.5144338501,0.5183049}, 
{0.0612665269,0.0595122885,0.0611548878}, 
{0.3215637836,0.2964382622,0.1439834964}} 


第 一 次 迭代 时 ， 电 影 和 矩阵 随机 生成 : 


ms = {RealVector[3]@3600} 

0 = {ArrayRealVector@3605} "{0.489603683; 0.5979051631}" 
1 = {ArrayRealVector@3606} "{0.2069873135; 0.4887559609}" 
2 = {ArrayRealVector@3607} "{0.5286582698; 0.6787608323}" 


yy 








用 户 和 矩阵 也 是 随机 的 : 


us = {RealVector[3]@3602} 

= {ArrayRealVector@3611} "{0.7964247309; 0.091570682}" 
{ArrayRealVector@3612} "{0.4509758768; 0.0684475614}" 
= {ArrayRealVector@3613} "{0.7812240904; 0.4180722562}" 


选取 用 户 矩 阵 us 的 第 一 行 ,计算 xtX(〈 和 矩阵 ) 和 xty (向 量 )， 如 下 面 的 代码 所 示 : 


m: {0.489603683; 0.5979051631} 
us:{Lorg.apache.commons.math3.1linear.RealVector;@75961f 16} 
XtX: Array2DRowRealMatrix { {0.0, 0.0}, {0.0, 0.0}} 

Xxty: {0; 0} 


DPpoO 
外 


7 0 


u: {0.7964247309; 0.091570682} 
u.outerProduct (u): 

Array2DRowRealMatrix { {0.634292352, 0.0729291558}, {0.0729291558, 0.0083851898}} 
XtX = XtX.add(u.outerProduct (u)): 

Array2DRowRealMatrix { {0.634292352, 0.0729291558}, {0.0729291558, 0.0083851898}} 
R.getEntry(i, j)): 0.5306513708051035 
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u.mapMultiply(R.getEntry(i, j): {0.4226238752; 0.0485921079} 
Xty = Xty.add(u.mapMultiply(R.getEntry(i, j))): {0.4226238752; 
0.0485921079} 


选取 用 户 和 矩阵 us 的 第 二 行 ， 并 将 其 加 到 xtx (和 矩阵 ) 和 xty (向 量 )， 如 下 面 的 代码 所 示 : 














Jj: 1 


u: {0.4509758768; 0.0684475614} 
u.outerProduct (u): 
Array2DRowRealMatrix { {0.2033792414, 0.030868199}, {0.030868199, 0.0046850687}} 
XtX = XtX.add(u.outerProduct (u) ) : 
Array2DRowRealMatrix { {0.8376715935, 0.1037973548}, {0.1037973548, 0.0130702585 
}} 
R.getEntry(i, j)): 0.5144338501354986 
u.mapMultiply(R.getEntry(i, j): {0.2319972566; 0.0352117425} 
Xty = Xty.add(u.mapMultiply(R.getEntry(i, j))): {0.6546211318; 
0.0838038505} 


J 


u: {0.7812240904; 0.4180722562} 
u.outerProduct (u) : 
Array2DRowRealMatrix { {0.6103110794, 0.326608118}, {0.326608118, 0.1747844114}} 
XtX = XtX.add(u.outerProduct (u)): 
Array2DRowRealMatrix { {1.4479826729, 0.4304054728}, {0.4304054728, 0.1878546698}} 
R.getEntry(i, j)): 0.5183049000396933 
u.mapMultiply(R.getEntry(i, j): {0.4049122741; 0.2166888989} 
Xty = Xty.add(u.mapMultiply(R.getEntry(i, j))): {1.0595334059; 
0.3004927494} 
After Regularization Xtx: 
Array2DRowRealMatrix { {1.4779826729, 0.4304054728}, {0.4304054728, 0.1878546698}} 
After Regularization Xtx: 
Array2DRowRealMatrix { {1.4779826729, 0.4304054728}, {0.4304054728, 0.2178546698 
}} 


计算 ms 第 一 行 的 值 ( Xtx 和 xty 经 Cholesky 分 解 后 对 应 的 电影 矩阵 ): 
CholeskyDecomposition{0.7422344051; -0.0870718111} 
对 us 的 每 一 行 都 经 上 述 操作 后 ， 得 到 : 


ms = {RealVector[3]@5078} 


0 = {ArrayRealVector@5125} "{0.7422344051; -0.0870718111}" 
1 = {ArrayRealVector@5126} "{0.0856607011; -0.007426896}" 
2 = {ArrayRealVector@5127} "{0.4542083563; -0.392747909}" 


对 应 的 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 05/2.0.0/scala- 
spark-app/src/main/scala/com/spark/recommendation/AlternatingLeastSquares.scala。 
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5.2 提取 有 效 特征 


这 里 ， 我 们 将 采用 显 式 评级 数据 ， 而 不 使 用 其 他 用 户 或 物品 的 元 数据 以 及 “用 户 -物品 ” 交 
互 数 据 。 这 样 ， 所 需 的 输入 数据 就 只 需 包括 每 个 评级 对 应 的 用 户 ID 、 影 片 ID 和 具体 的 星 级 。 





从 MovieLens 100k 数据 集 提取 特征 


后 续 代 码 使 用 和 上 一 章 中 相同 的 MovieLens 数据 集 。 用 你 自己 保存 该 数据 集 的 路 径 作 为 下 面 
代码 中 的 输入 路 径 参 数 。 








人 车 光 
先 看 下 原始 的 评级 数据 集 : 
object FeatureExtraction { 
def getFeatures(): Dataset [FeatureExtraction.Rating] = { 
val spark = SparkSession.builder.master ("local[2]") .appName ("FeatureExtraction") 


.getOrCreate() 
import spark.implicits. 


val ratings = spark.read.textFile("/data/ml-100k2/u.data") .map (parseRating) 
printiln(ratings.first()) 
return ratings 


} 





case class Rating (userId: Int, movieId: Int, rating: Float) 


def parseRating(str: String): Rating = { 
val fields -Striasplit ("NE") 
Rating(fields(0) .toInt, fields(1) .toInt, fields(2) .toFloat) 


} 


对 应 的 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 05/2.0.0/scala- 


spark-app/src/main/scala/com/spark/recommendation/FeatureExtraction.scala。 


其 输出 应 如 下 所 示 : 


16/09/07 11:23:38 INFO CodeGenerator: Code generated in 7.029838 ms 

16/09/07 11:23:38 INFO Executor: Finished task 0.0 in stage 0.0 (TID 
0). 1276 bytes result sent to driver 

16/09/07 11:23:38 INFO TaskSetManager: Finished task 0.0 in stage 0.0 
(TID 0) in 82 ms on localhost (1/1) 

16/09/07 11:23:38 INFO TaskSchedulerImpl: Removed TaskSet 0.0, whose 
tasks have all completed, from pool 

16/09/07 11:23:38 INFO DAGScheduler: Resultstage 0 (first at 
FeatureExtraction.scala:25) finished in 0.106 s 

16/09/07 11:23:38 INFO DAGScheduler: Job 0 finished: first at 
FeatureExtraction.scala:25, took 0.175165 s 

16/09/07 11:23:38 INFO CodeGenerator: Code generated in 6.834794 ms 

Rating(196,242,3.0) 
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之 前 也 提 过 ， 该 数据 由 用 户 ID 、 影 片 卫 、 星 级 和 时 间 惟 等 字段 依次 组 成 ， 各 字段 间 用 制 表 
符 分 隔 。 但 这 里 在 训练 模型 时 , 时 间 截 信息 是 不 需要 的 , 所 以 我 们 简单 地 提取 出 前 3 个 字段 即 可 ， 


























即 userID、movieID 和 rating: 


case class Rating(userId: Int, movieId: Int, rating: Float, timestamp: Long ) 
def parseRating(str: String): Rating = { 

val fields = str.split("\t") 

Rating(fields(0) .toInt, fields(1).toInt, fields(2) .toFloat, fields(3) .toLong) 
} 

对 应 的 代码 位 于 : 
名 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 05/2.0.0/scala- 
spark-app/src/main/scala/com/spark/recommendation/FeatureExtraction.scala。 


这 里 首先 将 每 条 记录 用 制 表 符 \t 来 分 割 出 各 字段 的 值 , 得 到 一 个 String 数组 。 后 面 会 进行 





值 


的 类 型 转换 ,并 只 保留 各 数组 的 前 3 个 元 素 。 这 些 元 素 分 别 对 应 userID、movieID 和 rating。 





5.3 ”训练 推荐 模型 


从 原始 数据 提取 出 这 些 简单 特征 后 ， 便 可 训练 模型 。MLIib 已 实现 模型 训练 的 细节 ， 这 不 
要 我 们 担心 。 我 们 只 需 提供 刚刚 创建 的 正确 解析 的 输入 数据 集 以 及 选 定 的 模型 参数 。 
将 数据 集 按 8 : 2 的 比例 分 割 为 训练 集 和 测试 集 。 代 码 如 下 : 


def createALSModel() { 
val ratings = FeatureExtraction.getFeatures (); 


























val Array (training, test) = ratings.randomSplit (Array (0.8, 0.2)) 
printlin(training.first()) 


} 


对 应 的 代码 位 于 : 
PD https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 05/2.0.0/scala- 
spark-app/src/main/scala/com/spark/recommendation/ALSModeling.scala。 


其 输出 如 下 : 


16/09/07 13:23:28 INFO Executor: Finished task 0.0 in stage 1.0 (TID 
1). 1768 bytes result sent to driver 

16/09/07 13:23:28 INFO TaskSetManager: Finished task 0.0 in stage 1.0 
(TID 1) in 459 ms on localhost (1/1) 

16/09/07 13:23:28 INFO TaskSchedulerImpl: Removed TaskSet 1.0, whose 
tasks have all completed, from pool 

16/09/07 13:23:28 INFO DAGScheduler: ResulLtStage 1 (first at 
FeatureExtraction.scala:34) finished in 0.459 s 

16/09/07 13:23:28 INFO DAGScheduler: Job 1 finished: first at 
FeatureExtraction.scala:34, took 0.465730 s 

Rating(1,1,5.0) 


EE 
TH 
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5.3.1 使 用 MovieLens 100k 数据 集训 练 模型 
现在 可 以 开始 训练 模型 了 。 所 需 的 其 他 参数 有 以 下 几 个 。 


口 rank: 对 应 ALS 模型 中 的 因子 个 数 ， 也 就 是 在 低 阶 近 似 矩 阵 中 的 隐 含 特征 个 数 。 因 子 个 
数 一 般 越 多 越 好 。 但 它 也 会 直接 影响 模型 训练 和 保存 时 所 需 的 内 存 开销 ， 尤 其 是 在 用 户 
和 物品 很 多 的 时 候 。 因 此 实践 中 该 参数 党 作为 训练 效果 与 系统 开销 之 间 的 调节 参数 。 通 
常 ， 其 合理 取 值 范围 为 10~200。 

口 iterations: 对 应 运行 时 的 迭代 次 数 。ALS 能 确保 每 次 迭代 都 能 降低 评级 矩阵 的 重建 误 
差 ， 但 一 般 经 少数 次 迭代 后 ALS 模型 便 已 能 收敛 为 一 个 比较 合理 的 好 模型 。 这 样 ， 大 部 
分 情况 下 都 没 必 要 迭代 太 多 次 〈10 次 左右 一 般 就 挺 好 )。 

口 numBlocks: 对 应 用 户 和 物品 将 分 为 将 并 行 计 算 的 块 数 ( 默认 为 10 )。 该 数 取决 于 集群 的 

节点 数 和 输入 分 块 的 方式 。 

口 regParam: 对 应 ALS 的 正则 化 参数 (默认 为 1.0 )。 常 数 1 被 称 为 正则 化 参数 。 本 质 上 ， 
当 用 户 或 物品 矩阵 的 规模 过 大 时 ， 它 会 减 小 矩阵 的 因子 。 这 对 数值 稳定 很 重要 ， 而 且 总 
会 引入 某 种 正则 化 方法 。 

口 implicitPrefs: 对 应 标识 矩阵 中 的 值 是 隐 式 反馈 值 还 是 显 式 反馈 值 ， 两 种 分 别 会 用 
ALS 隐 式 反馈 衍生 模型 (ALS-WR ) 和 显示 反馈 衍生 模型 来 建 模 。 默 认为 False， 即 显 式 
反馈 值 。 

口 alpha: 这 是 ALS 隐 式 反馈 模型 的 一 个 参数 , 它 确 定 了 反馈 对 应 的 基准 可 信和 度 , 默认 为 1.0。 

口 nongeative: 指定 是 否 使 用 非 负 约束 条 件 。 默 认为 false。 


参数 rank、maxIter 和 regParam 分 别 为 10 ( 默认 值 )、5 和 0.01。 模型 训练 代码 如 下 : 


// 在 训练 数据 上 使 用 ALS 创建 推荐 模型 

val als = new ALS() 
.SetMaxIter (5) 
.SetRegParam(0.01) 
.SetUserCol ("userId") 
.SetItemCol ("movieId") 
.SetRatingCol ("rating") 




























































































val model = als.fit (training) 


对 应 的 代码 位 于 : 
人 OD https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 05/2.0.0/scala- 
spark-app/src/main/scala/com/spark/recommendation/ALSModeling.scala。 
这 会 返回 一 个 ALSModel 对 象 ， 它 包含 名 称 分 别 为 userFactors 和 itemFactors 的 用 户 
和 物品 的 因子 。 


比如 ， 打 印 model .userFactors 会 输出 : 
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16/09/07 13:08:16 INFO MapPartitionsRDD: Removing RDD 16 from 
persistence list 

16/09/07 13:08:16 INFO BlockManager: Removing RDD 16 

16/09/07 13:08:16 INFO Instrumentation: ALS-als_ lca69e2ffef7- 
10603412-1: training finished 

16/09/07 13:08:16 INFO SparkContext: Invoking stop() from shutdown 
hook 

[id: int, features: array<float>] 


从 中 可 以 看 到 ， 这 些 因 子 的 类 型 为 Array [float]。 


注意 , MLlib 中 ALS 的 实现 里 所 用 的 操作 都 是 延迟 性 的 转换 操作 。 所 以 ， 只 在 当 用 户 因子 或 
物品 因子 的 结果 RDD 调用 了 执行 操作 时 ， 实 际 的 计算 才 会 发 生 。 要 强制 发 生计 算 ， 则 可 调用 
Spark 的 执行 操作 ， 如 count : 





























model .userFeatures.count 
这 将 触发 相应 的 计算 并 产生 如 下 的 输出 : 


16/09/07 13:21:54 INFO Executor: Running task 0.0 in stage 53.0 (TID 
166) 

16/09/07 13:21:54 INFO ShuffleBlockFetcherIiterator: Getting 10 non- 
empty blocks out of 10 blocks 

16/09/07 13:21:54 INFO ShuffleBlockFetcherIiterator: Started 0 remote 
fetches in 0 ms 

16/09/07 13:21:54 INFO Executor: Finished task 0.0 :in stage 53.0 (TID 
166). 1873 bytes result sent to driver 

16/09/07 13:21:54 INFO TaskSetManager: Finished task 0.0 in stage 
53.0 (TID 166) in 12 ms on localhost (1/1) 

16/09/07 13:21:54 INFO TaskSchedulerImpl: Removed TaskSet 53.0, whose 
tasks have all completed, from pool 

16/09/07 13:21:54 INFO DAGScheduler: ResultStage 53 (count at 
ALSModeling.scala:25) finished in 0.012 s 

16/09/07 13:21:54 INFO DAGScheduler: Job 7 finished: count at 
ALSModeling.scala:25, took 0.123073 s 

16/09/07 13:21:54 INFO CodeGenerator: Code generated in 11.162514 ms 

943 


在 电影 因子 上 调用 count, 即 ; 





Model .itemFactors.count () 
这 将 触发 计算 ， 并 得 到 如 下 输出 : 


16/09/07 13:23:32 INFO TaskSetManager: Starting task 0.0 in stage 
68.0 (TID 177, localhost, partition 0, ANY, 5276 bytes) 

16/09/07 13:23:32 INFO Executor: Running task 0.0 in stage 68.0 (TID 
ee 

16/09/07 13:23:32 INFO ShuffleBlockFetcherIiterator: Getting 10 non- 
empty blocks out of 10 blocks 

16/09/07 13:23:32 INFO ShuffleBlockFetcherIiterator: Started 0 remote 
fetches in 0 ms 
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16/09/07 13:23:32 INFO Executor: Finished task 0.0 in stage 68.0 (TID 
177). 1873 bytes result sent to driver 

16/09/07 13:23:32 INFO TaskSetManager: Finished task 0.0 in stage 
68.0 (TID 177) in 3 ms on localhost (1/1) 

16/09/07 13:23:32 INFO TaskSchedulerImpl: Removed TaskSet 68.0, whose 
tasks have all completed, from pool 

16/09/07 13:23:32 INFO DAGScheduler: ResultStage 68 (count at 
ALSModeling.scala:26) finished in 0.003 s 

16/09/07 13:23:32 INFO DAGScheduler: Job 8 finished: count at 
ALSModeling.scala:26, took 0.072450 5s 


1651 


恰 如 预 期 ， 每 个 用 户 和 每 部 电影 都 会 有 对 应 的 因子 数组 (分别 含 943 个 和 1651 个 因子 )。 





5.3.2 ”使 用 隐 式 反馈 数据 训练 模型 


MLlib 中 标准 的 矩阵 分 解 模型 用 于 显 式 评级 数据 的 处 理 。 若 要 处 理 隐 式 数据 ， 则 可 使 用 
trainImplicit 图 数 。 其 调用 方式 和 标准 的 train 模式 类 似 , 但 多 了 一 个 可 设置 的 alpha 参 
数 (同样 ， 正 则 化 参数 1ampqa 应 通过 测试 和 交叉 验证 法 来 设置 )。 


alpha 参数 指定 了 信心 权重 所 应 达到 的 基准 线 。 该 值 越 高 , 则 所 训练 出 的 模型 越 认 为 用 户 与 
他 所 没 评级 过 的 电影 之 间 没 有 相关 性 。 


从 Spark 2.0 开始 ， 如 果 评 级 矩阵 是 从 其 他 信息 源 得 来 的 ， 即 从 其 他 信和 号 推断 而 来 ， 我 们 可 
设置 setInplicityPrefs 为 true ww 比如 : 




















val als = new ALS() 
.SetMaxIter (5) 
.SetRegParam(0.01) 
.SetImplicitPprefs (true) 
.SetUserCol ("userId") 
.SetItemCol ("movieId") 
.SetRatingCol ("rating") 





作为 练习 , 试 将 现 有 的 MovieLens 数据 集 转换 为 一 个 隐 式 数据 集 , 一 种 方法 
是 将 它 转 为 二 元 的 反馈 数据 (0 和 1)， 这 可 通过 对 评级 设置 某 种 靖 值 来 实现 。 
0 另 一 种 方式 是 将 评级 值 转 为 信心 权重 。( 比方 说 ， 低 评级 意味 着 权 值 为 0 其 
至 是 负数 ，MLlib 支持 这 种 方式 。) 
在 该 隐 式 数据 集 上 训练 出 一 个 模型 并 与 下 一 节 的 模型 做 比较 。 


5.4 ”使 用 推荐 模型 
模型 训练 好 后 便 可 用 来 做 预测 。 
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5.4.1 ALS 模型 推荐 


从 Spark 2.0 开始 ，org.apache.spark.ml.recommendqation.ALS 所 实现 的 是 一 种 分 块 
版 的 因 式 分 解 算法 。 该 算法 将 users 和 oe 0 以 减少 不 同 节点 之 间 的 通信 。 
具体 来 说 ， 每 次 迭代 时 ， 只 会 将 每 个 用 户 向 量 的 一 个 副本 发 送 到 需要 该 用 户 向 量 的 每 个 products 


























下 面 载 人 电影 数据 集中 的 评论 数据 。 该 数据 集 每 一 行 由 user、movie 、rating 和 时 间 惟 字段 组 
成 。 然 后 用 默认 的 显示 偏好 设置 ( implicitpPrefs 为 false ) 来 训练 一 个 ALS 模型 。 模 型 的 效 
果 通 过 评级 预测 的 均 方 差 误差 来 衡量 ， 如 下 : 


object ALSModeling { 








def createALSModel() { 
val ratings = FeatureExtraction.getFeatures(); 


val Array (training, test) = ratings.randomSplit (Array (0.8, 0.2)) 
println(training.first()) 


// 在 训练 数据 上 使 用 ALS 创建 推荐 模型 

val als = new ALS() 
.SetMaxIter (5) 
.SetRegParam(0.01) 
.SetUserCol ("userId") 
.SetItemCol ("movieId") 
.SetRatingCol ("rating") 


val model = als.fit (training) 
println(model .userFactors.count () ) 
println(model.itemFactors.count () ) 


val predictions = model.transform(test) 
println(predictions.printSchema()) 





对 应 的 代码 位 于 : 
0 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 05/2.0.0/scala- 
spark-app/src/main/scala/com/spark/recommendation/ALSModeling.scala。 
上 述 代码 的 输出 如 下 : 


16/09/07 17:58:42 INFO SparkContext: Created broadcast 26 from 
broadcast at DAGScheduler.scala:1012 

16/09/07 17:58:42 INFO DAGScheduler: Submitting 1 missing tasks from 
ResultStage 67 (MapPartitionsRDD[138] at count at 
ALSModeling.scala:31) 

16/09/07 17:58:42 INFO TaskSchedulerImpl: Adding task set 67.0 
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with 1 tasks 

16/09/07 17:58:42 INFO TaskSetManager: Starting task 0.0 in stage 67.0 
(TID 176, localhost, partition 0, ANY, 5276 bytes) 

16/09/07 17:58:42 INFO Executor: Running task 0.0 in stage 67.0 (TID 176) 

16/09/07 17:58:42 INFO ShuffleBlockFetcherIterator: Getting 10 non empty 
blocks out of 10 blocks 

16/09/07 17:58:42 INFO ShuffleBlockFetcherIiterator: Started 0 remote 
fetches in 0 ms 

16/09/07 17:58:42 INFO Executor: Finished task 0.0 in stage 67.0 (TID 176) 
. 1960 bytes result sent to driver 

16/09/07 17:58:42 INFO TaskSetManager: Finished task 0.0 in stage 
67.0 (TID 176) in 3 ms on localhost (1/1) 

16/09/07 17:58:42 INFO TaskSchedulerImpl: Removed TaskSet 67.0, whose 
tasks have all completed, from pool 

16/09/07 17:58:42 INFO DAGScheduler: ResultStage 67 (count at 
ALSModeling.scala:31) finished in 0.003 s 

16/09/07 17:58:42 INFO DAGScheduler: Job 7 finished: count at 
ALSModeling.scala:31, took 0.060748 s 
100 

root 

1-- userId: integer (nullable = true) 

1-- movieId: integer (nullable = true) 

1-- rating: float (nullable = true) 

1-- timestamp: long (nullable = true) 

1-- prediction: float (nullable = true) 





在 继续 学 习 后 续 内 容 前 ， 请 注意 如 下 用 户 -物品 推荐 代码 使 用 Spark 1.6 版 本 
OP 的 Mllib。 请 站 双 匈 代 而 天 表 中 的 提示 来 获取 使 用 org.apache.spark.mllib.. 
recommendation.ALS 进行 推荐 的 详细 信息 。 


5.4.2 用户 推荐 


用 户 推荐 是 指向 给 定 用 户 推 荐 物品 。 它 通常 以 “前 天 个 ”形式 展现 ,， 即 通过 模型 求 出 用 户 可 
人 的 前 天 个 物品 。 这 个 过 程 通过 计算 每 个 物品 的 预计 得 分 并 按照 得 分 对 物品 进行 排 





























| 








具体 实现 方法 取决 于 所 采用 的 模型 。 比 如 若 采 用 基于 用 户 的 模型 , 则 会 利用 相似 用 户 的 评级 
来 计算 对 某 个 用 户 的 推荐 。 而 若 采 用 基于 物品 的 模型 , 则 会 依靠 用 户 接触 过 的 物品 与 候选 物品 之 
间 的 相似 度 来 获得 推荐 。 


利用 矩阵 分 解 方法 时 , 是 直接 对 评级 数据 进行 建 模 , 所 以 预计 得 分 可 视 作 相应 用 户 因子 向 量 
和 物品 因子 向 量 的 点 积 。 


1. 从 MovieLens 100k 数据 集 生 成 电影 推荐 


MLlib 的 推荐 模型 基于 和 矩阵 分 解 ， 因 此 可 用 模型 所 求 得 的 因子 和 矩阵 来 计算 用 户 对 物品 的 预计 
评级 。 下 面 只 针对 利用 MovieLens 中 显 式 数据 做 推荐 的 情形 ， 使 用 隐 式 模型 时 的 方法 与 之 相同 。 


注 
































146 ”第 5 章 Spark 构建 推荐 引擎 





MatrixFactorizationModel 类 提供 了 一 个 predict 函数 ， 以 方便 地 计算 给 定 用 户 对 给 


定 物品 的 预期 得 分 : 
val predictedRating = model.predict (789, 123) 
其 输出 如 下 : 
14/03/30 16:10:10 INFO SparkContext: Starting job: lookup at 


MatrixFactorizationModel.scala:45 
14/03/30 16:10:10 INFO DAGScheduler: Got job 30 (lookup at 


MatrixFactorizationModel.scala:45) with 1 output partitions (allowLocal=false) 


14/03/30 16:10:10 INFO SparkContext: Job finished: lookup at 
MatrixFactorizationModel.scala:46, took 0.023077 s 
predictedRating: Double = 3.128545693368485 


可 以 看 到 ， 该 模型 预测 用 户 789 对 电影 123 的 评级 为 3.12 分 。 


ALS 模型 的 初始 化 是 随机 的 ， 这 可 能 让 你 看 到 的 结果 和 这 里 不 同 。 实 际 上 ， 
每 次 运行 该 模型 所 产生 的 推荐 也 会 不 同 。 
predict 国 数 同 样 可 以 以 (user，item)ID 对 类 型 的 RDD 对 象 为 输入 ， 这 时 它 将 为 每 一 
都 生成 相应 的 预测 得 分 。 我 们 可 以 借助 这 个 函数 来 同时 为 多 个 用 户 和 物品 进行 预测 。 


要 为 某 个 用 户 生 成 前 K 个 推荐 物品 ， 可 借助 MatrixFactorizationModel 所 提供 





一 对 








recommendProducts 国 数 来 实现 。 该 函数 需 两 个 输入 参数 : user 和 num， 其 中 user 是 月 
ID， 而 num 是 要 推荐 的 物品 个 数 。 





返回 值 为 预测 得 分 最 高 的 前 num 个 物品 。 这 些 物品 的 序列 按 得 分 排序 。 该 得 分 为 相应 的 用 


户 因子 向 量 和 各 个 物品 因子 向 量 的 点 积 。 
现在 ， 算 下 给 用 户 789 推荐 的 前 10 个 物品 : 


val userId = 789 
Nal KS "10 
val topKRecs = model.recommendProducts (userId, K) 








这 就 求 得 了 为 用 户 789 所 能 推荐 的 物品 及 对 应 的 预计 得 分 。 将 这 些 信息 打印 出 来 以 便 查 看 : 





println(topKRecs.mkString("\n")) 


其 输出 应 与 如 下 类 似 : 


Rating(789,715,5.931851273771102) 
Rating(789,12,5.582301095666215) 
Rating(789,959,5.516272981542168) 
Rating(789,42,5.458065302395629) 
Rating(789,584,5.449949837103569) 
Rating(789,750,5.348768847643657) 


5.4 使 用 推荐 模型 147 





Rating(789,663,5.30832117499004) 

Rating(789,134,5.278933936827717) 
Rating(789,156,5.250959077906759) 
Rating(789,432,5.169863417126231) 


2. 检验 推荐 内 容 


要 直观 地 检验 推荐 的 效果 , 可 以 简单 比 对 下 用 户 所 评级 过 的 电影 的 标题 和 被 推荐 的 那些 电影 
的 电影 名 。 首 先 ， 我们 需要 读 入 电影 数据 ( 这 是 在 上 一 章 探索 过 的 数据 集 )。 这 些 数据 会 导 和 人 为 
Map [Int，String] 类 型 ， 即 从 电影 ID 到 标题 的 映射 : 






































val movies sc.textFile("/PATH/m1l-100k/u.item") 


val titles = movies.map(line => line.split("\\|").take(2)) .map(array 
so variay (0 Bornt;y 
array (1))). 2 

titles(123) 

其 输出 如 下 : 





res68: String = Frighteners, The (1996) 


至 于 用 户 789， 我 们 可 以 找 出 他 评级 过 的 电影 、 给 出 最 高 评级 的 前 10 部 电影 及 名 称 。 具 体 实 
现时 , 可 先 用 Spark 的 全 函数 来 从 ratings RDD 来 创建 一 个 键 值 对 RDD, 其 主键 为 用 户 人 D。 
然后 利用 1ookup 函数 来 只 返回 给 定 键 值 ( 即 特定 用 户 ID ) 对 应 的 那些 评级 数据 到 驱动 程序 。 

















val moviesForUser = ratings.keyBy(_.user).lookup(789) 

来 看 下 这 个 用 户 评价 了 多 少 部 电影 。 这 会 用 到 moviesForUser 的 size 困 数 : 
println(moviesForUser.size) 

可 以 看 到 ， 这 个 用 户 对 33 部 电影 做 过 评级 。 


接 下 来 ,我 们 要 获取 评级 最 高 的 前 10 部 电影 。 具 体 做 法 是 利用 Rating 对 象 的 rating 属 
性 来 对 moviesForUser 集合 进行 排序 ， 并 选 出 排名 前 10 的 评级 ( 含 相 应 电影 ID )。 之 后 以 其 
为 输入 ,借助 titles 映射 为 “(电影 名 称 ， 有 具体 评级 ) ”形式 。 再 将 名 称 与 具体 评级 打印 出 来 : 





























moviesForUser.sortBy(-_.rating) .take(10) .map( 
rating => (titles (rating.product), rating.rating)).foreach (println) 
其 输出 如 下 : 


(Godfather, The (1972),5.0) 
(Trainspotting (1996),5.0) 
(Dead Man Walking (1995),5.0) 
(Star Wars (1977),5.0) 
(Swingers (1996),5.0) 

(Leaving Las Vegas (1995),5.0) 
(Bound (1996),5.0) 

(Fargo (1996),5.0) 
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(Last Supper, The (1995),5.0) 
(Private Parts (1997),4.0) 


现在 看 下 对 该 用 户 的 前 10 个 推荐 ， 并 利用 上 述 相同 的 方式 来 查看 它们 的 电影 名 ( 注意 这 些 
推荐 已 排序 ): 














topKRecs.map (rating => ( 
titles(rating.product), rating.rating)).foreach (println) 


其 输出 如 下 : 


(To Die For (1995),5.931851273771102) 

(Usual Suspects, The (1995),5.582301095666215) 
(Dazed and Confused (1993),5.516272981542168) 
(Clerks (1994),5.458065302395629) 

(Secret Garden, The (1993),5.449949837103569) 
(Amistad (1997),5.348768847643657) 

(Being There (1979),5.30832117499004) 

(Citizen Kane (1941),5.278933936827717) 
(Reservoir Dogs (1992),5.250959077906759) 
(Fantasia (1940),5.169863417126231) 


读者 可 自己 对 比 下 两 份 电影 名 单 ， 看 看 这 些 推 荐 效果 如 何 。 








5.4.3 ”物品 推荐 

物品 推荐 是 为 回答 如 下 问题 : 给 定 一 个 物品 ， 哪 些 物品 与 它 最 相似 ? 这 里 ,“ 相 似 ” 的 确切 
定义 取决 于 所 使 用 的 模型 。 大 多 数 情况 下 , 相似 度 是 通过 某 种 方式 比较 表示 两 个 物品 的 向 量 而 得 
到 的 。 常 见 的 相似 度 衡量 方法 包括 皮尔 逊 相关 系数 ( Pearson correlation )、 针 对 实数 向 量 的 余弦 
相似 度 ( cosine similarity ) 和 针对 二 元 向 量 的 杰 卡 德 相 似 系数 ( Jaccard similarity )。 


1. 从 MovieLens 100k 数据 集 生 成 相似 电影 




















MatrixFactorizationModel 当前 的 API 不 能 直接 支持 物品 之 间 相 似 度 的 计算 , 所 以 我 们 
要 自己 实现 。 











这 里 会 使 用 余弦 相似 度 来 衡量 相似 度 。 另 外 采用 jblas 线性 代数 库 ( MLlib 的 依赖 库 之 一 ) 来 
求 向 量 点 积 。 这 些 和 现 有 的 predict 和 recommendProducts 限 数 的 实现 方式 类 似 ， 但 我 们 会 
用 到 余弦 相似 度 而 不 仅仅 只 是 求 点 积 viAo 











我 们 想 利用 余弦 相似 度 来 对 指定 物品 的 因子 向 量 与 其 他 物品 的 做 比较 。 进 行 线 性 代数 计算 
时 ， 需 要 先 从 因子 向 量 创建 一 个 Array [Double] 类 型 的 向 量 对 象 。JBLAS 类 DoubleMatrix 
的 构造 函数 的 参数 为 Array [Double] 类 型 。 导 入 该 类 的 代码 如 下 : 








import org.jblas.DoubleMatrix 
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使 用 如 下 构造 函数 来 从 一 个 数组 初始 化 一 个 DoubleMatrix 对 象 。 


jblas 类 是 用 Java 编写 的 线性 代数 库 。 它 基于 BLAS 和 LAPACK， 并 在 计算 
流程 上 借用 ATLAS 等 ， 从 而 使 得 jblas 速度 很 快 。BLAS 和 LAPACK 是 矩阵 计算 
方面 的 事实 上 的 行业 标准 。 

它 实际 是 对 BLAS 和 LAPACK 的 一 种 轻 度 封装 。 后 两 者 源 于 Fortran 社区 。 


0 DoubleMatrix 的 定义 式 为 : 


public DoubleMatrix(double[] newData) 





即 创建 一 个 列 向 量 newData 作为 数据 数组 ,所 创建 的 DoubleMatrix 对 象 
的 值 更 新 时 ， 也 会 更 新 到 对 应 的 输入 数组 newData 中 。 


简单 创建 一 个 DoubleMatrix: 

val aMatrix = new DoubleMatrix(Array (1.0, 2.0, 3.0)) 

其 输出 如 下 : 

aMatrix: org.jblas.DoubleMatrix = [1.000000; 2.000000; 3.000000] 

注意 ,使 用 jblas 时 ， 向 量 和 短 阵 都 表示 为 一 个 DoubleMatrix 类 对 象 ， 但 
前 者 的 是 一 维 的 而 后 者 为 二 维 的 。 

我 们 需要 定义 一 个 函数 来 计算 两 个 向 量 之 间 的 余弦 相似 度 。 余 弱 相 似 度 是 两 个 向 量 在 二 维 空 
间 里 夹 角 的 度数 。 它 是 两 个 向 量 的 点 积 与 各 向 量 范 数 (或 长 度 ) 的 乘积 的 商 。( 余弦 相似 度 用 的 
范 数 为 L2- 范 数 ， 即 L2-normo。 ) 

在 线性 代数 中 ， 向 量 v 的 大 小 称 为 它 的 范 数 ( norm )。 下 面 会 提 到 几 种 范 数 。 这 里 ， 我 们 定 
义 一 个 向 量 ”对 应 一 个 有 序 的 数字 元 组 。 














= Jo EC,i=12 个 
一 级 范 数 。 向量 bv 的 一 级 范 数 [ 也 称 Ll-norm 或 均 数 范 数 (meannorm ) ] 表 
示 如 下 。 其 定义 为 其 元 素 的 绝对 值 之 和 。 
0 局 -六 
二 级 范 数 。 向量 b 的 二 级 范 数 也 称 L2-norm、 均 方 根 范 数 ( mean-square norm ) 
或 最 小 平方 根 范 数 ( least-squares norm )， 其 表示 如 下 : 





| 


| 
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此 外 ， 它 定义 为 其 各 个 元 素 的 绝对 值 的 平方 和 的 平方 根 : 


n 
hl = SbF 


此 时 ,余弦 相似 度 是 正则 化 后 的 点 积 。 该 相似 度 的 取 值 范围 在 -1~1。1 表示 完全 相似 ，0 表 
示 两 者 互 不 相关 ( 即 无 相似 性 )。 这 种 衡量 方法 很 有 帮助 ， 因 为 它 还 能 捕捉 负 相 关 性 。 也 就 是 说 ， 
当 值 为 -1 时 ， 不 仅 表示 两 者 不 相关 ， 还 表示 它们 完全 不 同 。 其 定义 如 下 : 























n 


B 已 

本 i=1 

AIllllB n n 

FM Ei 
i=l1 1=1 


下 面 来 创建 这 个 cosineSimilarity 函数 : 





similarity = cos(0) = 


def cosineSimilarity(vecl: DoubleMatrix, vec2: DoubleMatrix): Double = { 
vecl.dot (vec2) / (vecl.norm2() * vec2.norm2()) 


} 


注意 , 这 里 定义 了 该 函数 的 返回 类 型 为 Double, 但 这 并 非 必 需 。Scala 的 类 
型 推断 机 制 能 自动 知道 这 个 返回 值 。 但 写 明 函数 的 返回 类 型 是 有 帮助 的 。 


下 面 以 物品 567 为 例 ， 从 模型 中 取 回 其 对 应 的 因子 。 这 可 以 通过 调用 lookup 函数 来 实现 。 
之 前 曾 用 过 该 函数 来 取 回 特定 用 户 的 评级 信息 。 下 面 的 代码 中 还 使 用 了 heag 函数 , 因为 lookup 
函数 返回 了 一 个 数组 ， 而 我 们 只 需 第 一 个 值 (实际 上 ,数组 里 也 只 会 有 一 个 值 ， 也 就 是 该 物品 的 
因子 向 量 )。 


这 个 因子 的 类 型 为 Array [Double] ， 所 以 后 面 会 用 它 来 创建 一 个 Double [Matrix] 对 象 ， 
然后 再 用 该 对 象 来 计算 它 与 自己 的 相似 度 : 

val itemId = 567 

val itemFactor = model.productFeatures.lookup (itemId) .head 


val itemVector = new DoubleMatrix(itemFactor) 
cosineSimilarity (itemVector, itemVector) 


一 个 相似 度 指标 应 该 能 表示 两 个 向 量 在 某 种 角度 上 的 相似 或 相近 的 程度 。 从 如 下 的 例子 可 以 
看 到 ,余弦 相似 度 表示 这 些 物品 向 量 之 间 的 相同 程度 。 这 正 是 我 们 想 衡量 的 程度 。 


res113: Double = 1.0 
现在 求 各 个 物品 的 余弦 相似 度 : 


val sims = model.productFeatures.map{ case (id, factor) => 
val factorVector = new DoubleMatrix(factor) 
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val sim = cosineSimilarity (factorVector, itemVector) 


(id, 


} 


sim) 





接 下 来 ， 对 物品 按照 相似 度 排序 ， 然 后 取出 与 物品 567 最 相似 的 前 10 个 物品 : 


// 早先 已 定义 过 K=10 
val sortedSims = sims.top(K) (Ordering.by[ (Int, Double), Double] { case 
(id, similarity) => similarity }) 


上 述 代 码 里 使 用 了 Spark 的 top 蚂 数 。 相 比 使 用 collect 函数 将 结果 返回 驱动 程序 ， 然 后 








再 本 地 排序 ，top 函数 能 分 布 式 计 算出 “前 玉 个 ”结果 ， 因 而 更 高 效 。( 注意 ， 推 荐 系统 要 处 理 
的 用 户 和 物品 数目 可 能 达到 数 百 万 。) 


Spark 需要 知道 如 何 对 sims RDD 里 的 (item ida，similarity score) 对 排序 。 为 此 ， 我 
们 另外 传人 了 一 个 参数 给 top 函数 。 这 个 参数 是 一 个 Scala ordering 对 象 ， 它 会 告诉 Spark 根 
据 键 值 对 里 的 值 排序 〈 也 就 是 用 similarity 排序 )。 


最 后 ， 打 印 出 这 10 个 与 给 定 物品 最 相似 的 物品 : 


println(sortedSims.take(10) .mkString("\n")) 


























输出 如 下 : 
(567,1.0000000000000002) 
(1471,0.6932331537649621) 
(670,0.6898690594544726) 
(201,0.6897964975027041) 
(343,0.6891221044611473) 
(563,0.6864214133620066) 
(294,0.6812075443259535) 
(413,0.6754663844488256) 
(184,0.6702643811753909) 
(109,0.6594872765176396) 

















不 出 所 料 , 排名 第 一 的 最 相似 物品 就 是 我 们 给 定 的 物品 。 之 后 便 是 以 相似 度 排 序 的 其 他 类 似 


2. 检查 推荐 的 相似 物品 
来 看 下 我 们 所 给 定 的 电影 的 名 称 是 什么 : 


Println(titles(itemId) ) 


输出 为 : 





Wes Craven's New Nightmare (1994) 


正如 在 用 户 推 荐 中 所 做 过 的 , 我 们 可 以 看 看 推荐 的 那些 电影 名 称 是 什么 , 从 而 直观 上 检查 一 
下 基于 物品 推荐 的 结果 。 这 一 次 我 们 取 前 11 部 最 相似 的 电影 ， 以 排除 给 定 的 那 部 。 所 以 ， 可 以 
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选取 列表 中 的 第 1~11 项 : 


val sortedSims2 = sims.top(K + 1) (Ordering.by[ (Int, Double), Double] { 
case (id, similarity) => similarity }) 

sortedSims2.slice(1, 11) .map{ case (id, sim) => (titles(id), sim) 
nkSotiineg.( HY) 


这 将 给 出 被 推荐 的 那些 电影 的 名 称 以 及 相应 的 相似 度 : 


(Hideaway (1995),0.6932331537649621) 

(Body Snatchers (1993),0.6898690594544726) 

(Evil Dead II (1987),0.6897964975027041) 

(Alien: Resurrection (1997),0.6891221044611473) 

(Stephen King's The Langoliers (1995),0.6864214133620066) 
(Liar Liar (1997),0.6812075443259535) 

(Tales from the Crypt Presents: Bordello of Blood 
(1996),0.6754663844488256) 

(Army of Darkness (1993),0.6702643811753909) 

(Mystery Science Theater 3000: The Movie (1996),0.6594872765176396) 
(Scream (1996),0.6538249646863378) 





同样 ,因为 模型 的 初始 化 是 随机 的 , 所 以 这 里 显示 的 结果 可 能 与 你 运行 得 到 
的 结果 有 所 不 同 。 
上 面 我 们 使 用 余弦 相似 度 得 出 了 相似 物品 。 可 以 试 着 同样 用 该 相似 度 , 用 用 户 因 子 向 量 来 计 
算 与 给 定 用 户 类 似 的 用 户 有 哪些 。 




















5.5 推荐 模型 效果 的 评估 


如 何 知道 训练 出 来 的 模型 是 一 个 好 模型 ? 这 就 需要 某 种 方式 来 评估 它 的 预测 效果 。 评估 指标 
(evaluation metric ) 指 那些 衡量 模型 预测 能 力 或 准确 度 的 方法 。 它 们 有 些 直接 度量 模型 对 目标 变 
量 ( 比如 均 方 差 ) 的 预测 好 坏 ， 有 些 则 关注 模型 对 那些 并 未 针对 其 优化 过 ,但 又 十 分 接近 真实 应 
用 场景 数据 的 预测 能 力 〈 比如 平均 准确 率 ，mean average precision )。 


评估 指标 提供 了 比较 同一 模型 在 不 同 参 数 下 的 性 能 , 或 是 比较 不 同 模型 性 能 的 标准 方法 。 通 
过 这 些 指 标 ， 人 们 可 以 从 待 选 的 模型 中 找 出 表现 最 好 的 那个 。 


这 里 将 会 演示 如 何 计算 推荐 系统 和 协同 过 滤 模 型 里 常用 的 两 个 指标 : 均 方差 ( MSE，mean 
squared error ) 以 及 KK 值 平 均 准确 率 (MAPK,， mean average precision at K )。 












































5.5.1 ALS 模型 评估 


从 Spark 2.0 开始 ， 对 回归 问题 会 使 用 org.apache.spark.ml .evaluation.Regression- 
Evaluator。 回 归 评 估 ( regression evaluation ) 是 用 于 衡量 一 个 模型 在 预 留 的 测试 数据 上 表现 的 
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一 种 指标 。 这 里 具体 会 使 用 均 方 根 误差 ， 即 MSE 的 平方 根 。 
object ALSModeling { 


def createALSModel() { 
val ratings = FeatureExtraction.getFeatures(); 


val Array (training, test) = ratings.randomSplit (Array (0.8, 0.2)) 
println(training.first()) 


// 使 用 ALS 在 训练 数据 上 构建 推荐 模型 

val als = new ALS() 
.SetMaxIter (5) 
.SetRegParam(0.01) 
.SetUserCol ("userId") 
.SetItemCol ("movieId") 
.SetRatingCol ("rating") 


val model = als.fit (training) 
println(model.userFactors.count()) 
println(model.itemFactors.count()) 





val predictions = model.transform(test) 
println(predictions.printSchema()) 





val evaluator = new RegressionEvaluator () 
.SetMetricName ("rmse") 
.SetLabelCol ("rating") 
.SetPredictionCol ("prediction") 

val rmse = evaluator.evaluate (predictions) 


println(s"Root-mean-square error = S$rmse") 


def main(args: Array[String]l) { 
createALSModel () 


对 应 的 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 05/2.0.0/scala- 
spark-app/src/main/scala/com/spark/recommendation/ALSModeling.scala。 


其 输出 如 下 : 


16/09/07 17:58:45 INFO ShuffleBlockFetcherIiterator: 
Getting 4 non-empty blocks out of 200 blocks 

16/09/07 17:58:45 INFO ShuffleBlockFetcherIiterator: 
Getting 2 non-empty blocks out of 200 blocks 

16/09/07 17:58:45 INFO ShuffleBlockFetcherIiterator: 
Started 0 remote fetches in 0 ms 
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16/09/07 17:58:45 INFO ShuffleBlockFetcherIiterator: 
Started 0 remote fetches in 0 ms 

16/09/07 17:58:45 INFO ShuffleBlockFetcherIiterator: 
Getting 1 non-empty blocks out of 10 blocks 

16/09/07 17:58:45 INFO ShuffleBlockFetcherIiterator: 
Getting 1 non-empty blocks out of 10 blocks 

16/09/07 17:58:45 INFO ShuffleBlockFetcherIiterator: 
Started 0 remote fetches in 0 ms 

16/09/07 17:58:45 INFO ShuffleBlockFetcherIiterator: 
Started 0 remote fetches in 0 ms 

Root-mean-square error = 2.1487554400294777 


在 继续 阅读 后 续 内 容 前 ， 请 注意 如 下 用 户 -物品 推荐 代码 使 用 的 是 Spark 1.6 
外 版 本 的 Mllib。 请 参见 代码 列表 中 的 提示 来 获取 使 用 org.apache.spark. 
mllib.recommendation.ALS 进行 推荐 的 详细 信息 。 


5.5.2 ” 均 方差 


均 方差 ( MSE，mean squared error ) 直接 衡量 “用 户 -物品 ”评级 和 矩阵 的 重建 误差 。 它 也 是 
一 些 模 型 里 所 采用 的 最 小 化 目标 函数 , 特别 是 许多 和 矩阵 分 解 类 方法 ,比如 ALS。 因 此 , 它 常 用 于 
显 式 评级 的 情形 。 


它 的 定义 为 各 平方 误差 的 和 与 总 数目 的 商 。 其 中 平方 误差 是 指 预测 到 的 评级 与 真实 评级 的 差 
值 的 平方 。 

下 面 以 用 户 789 为 例 来 讲解 。 现 在 从 之 前 计算 的 moviesForUser 这 个 Ratings 集合 里 找 
出 该 用 户 的 第 一 个 评级 : 








val actualRating = moviesForUser.take(1) (0) 

输出 为 : 

actualRating: org.apache.spark.mllib.recommendation.Rating = Rating(789,1012,4.0) 
可 以 看 到 该 用 户 对 该 电影 的 评级 为 4。 然后 ， 求 模型 的 预计 评级 : 

val predictedRating = model.predict(789, actualRating.product) 

其 输出 是 : 

14/04/13 13:01:15 INFO SparkContext: Job finished: lookup at 
MatrixFactorizationModel.scala:46, took 0.025404 s 


predictedRating: Double = 4.001005374200248 


可 以 看 出 模型 预测 的 评级 差不多 也 是 4， 十 分 接近 用 户 的 实际 评级 。 最 后 ， 我 们 计算 实际 讨 
级 和 预计 评级 的 平方 误差 : 














EE 
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val squaredError = math.pow(predictedRating - actualRating.rating, 2.0) 
\ AN 

这 将 输出 : 

squaredError: Double = 1.010777282523947E-6 


要 计算 整个 数据 集 上 的 MSE, 需要 对 每 一 条 (user, movie, actual rating, predicted 
rating) 记录 都 计算 该 平均 误差 .然后 求 和 ， 再 除 以 总 的 评级 次 数 。 具 体 实现 如 下 。 





以 下 代码 取 自 Apache Spark 编程 指南 中 的 ALS 部 分 : http://spark.apache.org/ 
docs/latest/mllib-collaborative-filtering.html。 





首先 从 ratings RDD 里 提取 用 户 和 物品 的 ID， 并 使 用 moqel .predict 来 对 各 个 “用 户 - 
品 ” 对 做 预测 。 所 得 的 RDD 以 “用 户 和 物品 JP” 对 作为 主键 ， 对 应 的 预计 评级 作为 值 : 





val usersProducts = ratings.map{ case Rating(user, product, rating) 
=> (user, product) 





} 
val predictions = model.predict (usersProducts) .mapt 
case Rating(user, product, rating) => ((user, product), rating) 


} 

接着 提取 出 真实 的 评级 。 同 时 ， 对 ratings RDD 做 映射 以 让 “用 户 - 物 品 ” 对 为 主键 ， 
际 评级 为 对 应 的 值 。 这 样 ， 就 得 到 了 两 个 主键 组 成 相同 的 RDD。 将 两 者 连接 起 来 ， 以 创建 一 
新 的 RDD。 这 个 RDD 的 主键 为 “用 户 - 物 品 ” 对 ， 键 值 为 相应 的 实际 评级 和 预计 评级 。 








> 次 











val ratingsAndPredictions = ratings.mapt 
case Rating(user, product, rating) => ((user, product), rating) 
}.join(predictions) 


最 后 ， 求 上 述 MSE。 具 体 先 用 reduce 来 对 平方 误差 求 和 ， 然 后 再 除 以 count 函数 所 求 得 
的 总 记录 数 : 





val MSE = ratingsAndPredictions.mapt{ 

case ((user, a (actual, predicted)) => math.pow((actual - predicted), 2) 
}.reduce(_ _) / ratingsAndPredictions.count 
println(' a 人 EXrOr = oF, MSE) 


对 应 的 输出 如 下 : 
Mean Squared Error = 0.08231947642632852 


均 方 根 误差 ( RMSE，root mean squared error ) 的 使 用 也 很 普遍 ， 其 计算 只 和 需 在 MSE 上 取 平 
方 根 即 可 。 这 不 难 理解 ， 因 为 两 者 背后 使 用 的 数据 ( 即 评级 数据 ) 相同 。 它 等 同 于 求 预计 评级 和 
实际 评级 的 差 值 的 标准 差 。 如 下 代码 便 可 求 出 : 


val RMSE = math.sqart (MSE) 
println("Root Mean Squared Error = " + RMSE) 








156 ”第 5 章 Spark 构建 推荐 引擎 





其 输出 的 均 方 根 误差 为 : 
Root Mean Squared Error = 0.2869137090247319 


结合 该 误差 的 定义 来 对 上 述 结果 进行 理解 。 将 RMSE 误差 降低 ， 即 使 将 预测 值 向 理想 值 拟 
合 。 另 外 也 需 注意 实际 数据 的 最 大 值 和 最 小 值 。 





5.5.3 人 K 值 平均 准确 率 


开 值 平均 准确 率 ( MAPK ) 的 意思 是 整个 数据 集 上 的 K 值 平 均 准 确 率 ( APK ，average precision 
at KK metric ) 的 均值 。APK 是 信息 检索 中 常用 的 一 个 指标 。 它 用 于 衡量 针对 某 个 查询 所 返回 的 “前 
KK 个 ”文档 的 平均 相关 性 。 对 于 每 次 查询 , 我 们 会 将 结果 中 的 前 个 与 实际 相关 的 文档 进行 比较 。 


用 APK 指标 计算 时 ， 结 果 中 文档 的 排名 十 分 重要 。 如 果 结 果 中 文档 的 实际 相关 性 越 高 且 排 
名 也 更 靠 前 ， 那 APK 分 值 也 就 越 高 。 由 此 ， 它 也 很 适合 评估 推荐 的 好 坏 ， 因 为 推荐 系统 也 会 计 
算 “ 前 XK 个 ”推荐 物 , 然后 呈现 给 用 户 。 如 果 在 预测 结果 中 得 分 更 高 ( 在 推荐 列表 中 排名 也 更 靠 
前 ) 的 物品 实际 上 也 与 用 户 更 相关 ， 那 自然 这 个 模型 就 更 好 。APK 和 其 他 基于 排名 的 指标 同样 
也 更 适合 评估 隐 式 数据 集 上 的 推荐 。 这 里 用 MSE 相对 就 不 那么 合适 。 


当 用 APK 来 做 评估 推荐 模型 时 ， 每 一 个 用 户 相 当 于 一 个 查询 ， 而 每 一 个 “前 K 个 ”推荐 物 


组 成 的 集合 则 相当 于 一 个 查 到 的 文档 结果 集合 。 用 户 对 电影 的 实际 评级 便 对 应 着 文档 的 实际 相关 
性 。 这 样 ，APK 所 试图 衡量 的 是 模型 对 用 户 感 兴趣 和 会 去 接触 的 物品 的 预测 能 






























































以 下 计算 平均 准确 率 的 代码 基于 https://github.com/benhamner/Metrics。 
DP 关于 MAPK 的 更 多 信息 可 参见 https://en.wikipedia.org/wiki/Evaluation measures_ 


(information retrieval)#Mean _ average_precision 。 
计算 APK 的 代码 实现 如 下 : 


def avgPrecisionK(actual: Seql[lInt], predicted: Seql[lInt], k: Int): Double = { 
val predK = predicted.take (k) 
Var Score = 0.0 
var numHits = 0.0 
for ((p, i) <- predK.zipWithIndex) { 
if (actual.contains(p)) { 
numHits += 1.0 
score += numHits / (i.toDouble + 1.0) 
} 
} 
if (actual.isEmpty) { 
1.0 
} else { 
Score / scala.math.min(actual.size, k) .toDouble 
} 
} 
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可 以 看 到 , 该 函数 包括 两 个 数组 。 一 个 以 各 个 物品 及 其 评级 为 内 容 , 男 一 个 以 模型 所 预测 的 
物品 及 其 评级 为 内 容 。 


下 面 来 计算 给 用 户 789 推荐 的 APK 指标 怎么 样 。 首 先 提取 出 用 户 实际 评级 过 的 电影 的 ID: 





val actualMovies = moviesForUser.map(_.product) 
~ 人 人 
输出 如 下 : 


actualMovies: Sed[Int] = ArrayBuffer(1012, 127, 475, 93, 1161, 286, 293, 9, 50, 294, 
181, 1, 1008, 508, 284, 1017, 137, 111, 742, 248, 249, 1007, 591, 150, 276, 151, 129, 
100, 741, 288, 762, 628, 124) 


然后 提取 出 推荐 的 物品 列表 , 天 设 定 为 10: 





val predictedMovies = topKRecs.map(_.product) 

输出 如 下 : 

predictedMovies: Array[Int] = Array(27, 497, 633, 827, 602, 849, 401, 584, 1035, 1014) 

然后 用 下 面 的 代码 来 计算 平均 准确 率 : 

val apk10 = avgPrecisionK(actualMovies, predictedMovies, 10) 

输出 如 下 : 

apk10: Double = 0.0 

这 里 ，APK 的 得 分 为 0， 这 表明 该 模型 在 为 该 用 户 做 相关 电影 预测 上 的 表现 并 不 理想 。 

全 局 MAPK 的 求解 要 计算 对 每 一 个 用 户 的 APK 得 分 ， 再 求 其 平均 。 这 就 要 为 每 一 个 用 户 都 
生成 相应 的 推荐 列表 。 针 对 大 规模 数据 处 理 时 ， 这 并 不 容易 ， 但 我 们 可 以 通过 Spark 分 布 式 进行 
该 计算 。 不 过 ,这 就 会 有 一 个 限制 ， 即 每 个 工作 节点 都 要 有 完整 的 物品 因子 和 矩阵， 这 样 它们 才能 
独立 地 计算 某 个 物品 向 量 与 其 他 所 有 物品 向 量 之 间 的 相关 性 。 然而 当 物 品 数量 众多 时 , 单个 节点 
的 内 存 可 能 保存 不 下 这 个 矩阵。 此 时 ， 这 个 限制 也 就 成 了 问题 。 




















事实 上 并 没有 其 他 简单 的 途径 来 应 对 这 个 问题 。 一 种 可 能 的 方式 是 只 计算 
6 与 一 部 分 物品 的 相关 性 。 这 可 通过 局 部 敏感 散 列 算法 (locality sensitive hashing ) 
等 来 实现 。 








下 面 看 一 看 如 何 求解 。 首 先 ， 取 回 物品 因子 向 量 并 用 它 来 构建 一 个 DoubleMatrix 对 象 : 





val itemFactors = model.productFeatures.map { case (id, factor) 
so Factor GOL]Lect() 

val itemMatrix = new DoubleMatrix(itemFactors) 

println(itemMatrix.rows, itemMatrix.columns) 





158 第 5 章 Spark 构建 推荐 引擎 





输出 如 下 : 


(1682,50) 


这 说 明 itemMatrix 的 行列 数 分 别 为 1682 和 50。 这 很 正常 ， i et 


就 是 这 么 多 。 接 下 来 ,我 们 将 该 矩阵 以 一 个 广播 变量 的 方式 分 发 出 去 ,以 便 每 个 工作 节点 都 能 
间 到 : 





val imBroadcast = sc.broadcast (itemMatrix) 
你 将 看 到 如 下 输出 : 


14/04/13 21:02:01 INFO MemoryStore: ensureFreeSpace(672960) called with 
curMem=4006896, maxMem=311387750 


14/04/13 21:02:01 INFO MemoryStore: Block broadcast 21 stored as values 
to memory (estimated size 657.2 KB, free 292.5 MB) 


imBroadcast: org.apache.spark.broadcast .Broadcast [org.jblas.DoubleMatrix] 
= Broadcast (21) 


现在 可 以 计算 每 一 个 用 户 的 推荐 。 这 会 对 每 一 个 用 户 因子 进行 一 次 map 操作 。 在 这 个 操作 
里 , 会 对 用 户 i 其 结果 为 一 个 表示 各 个 电影 预计 评级 的 向 量 (长 
度 为 1682， 即 电影 的 总 数目 )。 之 后 ， 用 预计 评级 对 它们 排序 : 



































val allRecs = model.userFeatures.map{ case (userId, array) 
val userVector = new DoubleMatrix(array) 
val Scores = imBroadcast.value.mmul (userVector) 
val sortedWithId = scores.data.zipWithIindex.sortBy(-_._ 
val recommendedIds = sortedWithIid.map(_._2 + 1). SEE 
(userId, recommendedIds) 


=> 


1) 


其 输出 如 下 : 


allRecs: org.apache.spark.rdd.RDD[ (Int, Seql[lInt])] = MappedRDD[269] at 
map at <console>:29 














这 样 就 有 了 一 个 由 每 个 用 户 ID 及 各 自 相 对 应 的 电影 ID 列表 构成 的 RDD。 这些 电影 ID 按照 
预计 评级 的 高 低 排 序 。 


如 前 面 代码 片段 中 加 粗 的 部 分 所 示 ， 返 回 的 电影 ID 需要 加 上 1。 这 是 因为 
物品 因子 天 阵 的 编号 从 0 开始， 而 我 们 电影 的 编号 是 从 1 开始 的 。 

















还 需要 将 每 个 用 户 对 应 的 电影 ID 列表 作为 传人 到 APK 函数 的 actual 参数 。 我 们 已 经 有 
ratingsRDD， 所 以 只 需 从 中 提取 用 户 和 电影 的 ID 即 可 。 























使 用 Spark 的 groupBy 操作 便 可 得 到 一 个 新 RDD。 该 RDD 包含 每 个 用 户 ID 所 对 应 的 
(userid，movieid) 对 (因为 groupBy 操作 所 用 的 主键 就 是 用 户 ID ): 
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val userMovies = ratings.map{ case Rating(user, product, rating) => 


(user, product)}.groupBy( 


其 输出 如 下 : 


1 


userMovies: org.apache.spark.rdd.RDD[(Int, Seq[l(Int, Int)])] = 
MapPartitionsRDD[277] at groupBy at <console>:21 


最 后 , 可 以 通过 Spark 的 join 操作 将 这 两 个 RDD 以 用 户 ID 相连 接 。 这 样 , 对 于 每 一 个 用 
户 ， 我 们 都 有 一 个 实际 和 预测 的 那些 电影 的 ID。 这 些 ID 可 以 作为 APK 函数 的 输入 。 与 计算 


MSE 时 类 似 ， 我 们 调用 reduce 
allRecs RDD 的 大 小 : 





操作 来 对 这 些 APK 得 分 求 和 ， 然 后 再 除 以 总 的 用 户 数目 ， 即 


Ya K = "10 
val MAPK = allRecs.join(userMovies) .map{ case (userId, (predicted, 
actualWithIds)) => 
val actual = actualWithIdqs .map (_._2) .toSed 
avgPrecisionK(actual, predicted, K) 
}.reduce(_ + _) / allRecs.count 
println("Mean Average Precision at K = " + MAPK) 


上 述 代码 会 输出 指定 天 值 时 的 平均 准确 度 : 


Mean Average Precision at 


= 0.030486963254725705 











我 们 模型 的 MAPK 得 分 相当 低 。 但 请 注意 ， 推 荐 类 任务 的 这 个 得 分 通常 都 较 低 ， 特 别 是 当 


物品 的 数量 极 大 时 。 


























试 着 给 lambda 和 rank (还 有 alpha， 如果 你 使 用 的 是 隐 式 的 ALS ) 设置 其 他 的 值 ， 看 一 
下 你 能 否 找到 一 个 RMSE 和 MAPK 得 分 更 好 的 模型 。 








5.5.4 ”使 用 MLIib 内 置 的 评估 函数 
前 面 我 们 从 零 开 始 对 模型 进行 了 MSE、RMSE 和 MAPK 三 方面 的 评估 。 这 是 一 段 很 有 用 的 





练习 。 同 样 ，MLlib 下 的 Regres 
以 方便 模型 评估 。 


1. RMSE 和 MSE 


首先 ,我 们 使 用 Regression 
Metrics 对 象 需 要 一 个 键 值 对 类 








sionMetrics 类 和 RankingMetrics 类 也 提供 了 相应 的 函数 


etrics 来 求解 MSE 和 RMSE 得 分 。 实 例 化 一 个 Regression 








型 的 RDD。 其 每 一 条 记录 对 应 每 个 数据 点 上 相应 的 预测 值 与 实 


际 值 。 代 码 实现 如 下 。 这 里 仍然 会 用 到 之 前 已 经 算出 的 ratingsAndPredictions RDD: 


import org.apache.spark.mllib.evaluation.RegressionMetrics 

val predictedAndTrue = ratingsAndPredictions.map { case ((user, 
product), (predicted, actual)) => (predicted, actual) } 

val regressionMetrics = new RegressionMetrics (predictedAndTrue) 
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之 后 就 可 以 查看 各 种 指标 的 情况 ,包括 MSE 和 RMSE。 下 面 将 这 些 指标 打印 出 来 : 


println("Mean Squared Error = " + regressionMetrics.meanSquaredError) 
println("Root Mean Squared Error = " + regressionMetrics.rootMeanSquaredError) 


可 以 看 到 ， 输 出 的 MSE 和 RMSE 结 与 之 前 我 们 所 得 到 的 完全 相同 : 


Mean Squared Error = 0.08231947642632852 
Root Mean Squared Error = 0.2869137090247319 


2. MAP 








与 计算 MSE 和 RMSE 一 样 ， 可 以 使 用 MLlib 的 RankingMetrics 类 来 计算 基于 排名 的 评 
佑 指标 。 类 似 地 ， 需 要 向 我 们 之 前 的 平均 准确 率 函 数 传人 一 个 键 值 对 类 型 的 RDD。 其 键 为 给 定 
用 户 预 测 的 推荐 物品 的 ID 数组 ， 而 值 则 是 实际 的 物品 ID 数组 。 


RankingMetrics 中 的 值 平均 准确 率 函数 的 实现 与 我 们 的 有 所 不 同 ， 因 而 结果 会 不 同 。 
但 全 局 平均 准确 率 (MAP，mean average precision ， 并 不 设 定 阔 值 玉 ) 会 和 当天 值 较 大 (比如 设 
为 总 的 物品 数目 ) 时 我 们 模型 的 计算 结果 相同 。 


首先 ， 使 用 RankingMetrics 来 计算 MAP: 


import org.apache.spark.mllib.evaluation.RankingMetrics 

val predictedAndTrueForRanking = allRecs.join(userMovies) .map{ case 
(userId, (predicted, actualWithIds)) => 
val actual = actualWithIds.map(_._2) 
(predicted.toArray, actual.toArray) 














} 
val rankingMetrics = new RankingMetrics (predictedAndTrueForRanking) 
println("Mean Average Precision = " + rankingMetrics.meanAveragePrecision) 


其 输出 如 下 : 
Mean Average Precision = 0.07171412913757183 


接 下 来 用 和 之 前 完全 相同 的 方法 来 计算 MAP，, 但 是 将 KK 值 设 到 很 高 ， 比 如 2000: 





val MAPK2000 = allRecs.join(userMovies) .map{ 
case (userIid, (predicted, actualWithIds)) => 
val actual = actualWithIds.map(_._2) 
.toSeq avgPrecisionK(actual, predicted, 2000) 
}.reduce(_ + _) / allRecs.count 
println("Mean Average Precision = " + MAPK2000) 


你 会 发 现 ， 用 这 种 方法 计算 得 到 的 MAP 与 使 用 RankingMetrics 计算 得 出 的 MAP 相同 : 
Mean Average Precision = 0.07171412913757186 


注意 ， 本 章 并 未 涉及 交 又 验证 ， 相 关内 容 后 面 会 详细 讲述 。 那 些 方法 同样 可 
用 于 推荐 模型 的 性 能 指标 评估 ,这 些 指标 就 包括 本 章 提 到 的 MSE、RMSE 和 MAP。 
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5.6 ”FP-Growth 算法 
下 面 使 用 FP-Growth 算法 来 找 出 高 频 推 荐 的 电影 。 


该 算 的 描述 可 在 Han 等 人 的 论文 J frequent patterns without candidate generation ”中 找 
到 。FP 代表 frequent pattern ， 即 高 频 模 式 。 给 定 若 干 交易 记录 ，FP-Growth 的 第 一 步 是 计算 物品 
的 频率 并 标示 高 频 物 品 。 第 二 步 是 利用 后 级 树 (suffix tree， 也 称 为 FP-tree ) 来 编码 各 交易 ; 该 
过 程 不 会 显 式 生成 推荐 的 备 选集 合 ， 在 大 数据 集 上 对 应 的 计算 量 通 常 很 大 。 









































5.6.1 FP-Growth 的 基本 例子 
先 来 看 个 十 分 简单 的 由 随机 数 构成 的 数据 集 : 


val transactions = Seql( 
[ 2 Kb", 





人 


yxwVvut s", 





从 
乙 
= 
Ws 
Zh 
B24 


ZY qt p") 


map(_.split(" ")) 
我 们 会 找 出 高 频 物品 ( 这 里 指 字符 )。 首 先 按 如 下 方式 生成 一 个 sparkContext 对 象 : 
val sc = new SparkContext ("local[2]", "Chapter 5 App") 


再 将 数据 转 为 一 个 RDD: 
val rdd = sc.parallelize(transactions, 2) .cache() 


初始 化 一 个 FPGrowth 实例 : 





val fpg = new FPGrowth() 


FP-Growth 算法 可 用 如 下 参数 来 配置 。 

口 minSupport: 标识 一 个 物品 为 高 频 物 品 所 需 的 最 小 频率 。 比 如 ， 一 个 物品 在 
名 10 次 交易 中 出 现 了 3 次， 其 对 应 的 Support 值 为 3/10 = 0.3。 

口 numPartitions: 要 将 任务 划分 为 为 多 少 个 分 区 ， 以 并 行 工 作 。 


设置 FP-Growth 实例 对 应 的 minsupport 和 分 区 数 ， 并 应 用 到 上 述 RDD 对 象 上 。 分 区 数 应 
该 是 数据 集 的 分 区 数 ， 即 要 从 其 载 人 数据 的 工作 节点 的 数目 。 代 码 如 下 : 


val model = fpg.setMinSupport (0.2) .SetNumPartitions (1) .xun(rdad) 
获取 输出 的 物品 集 并 打印 : 


modqe1 .fredqItemsets.collect().foreach { itemset => 
println(itemset.items.mkString("{[", ",", "]") + ", " + itemset.freq) 


} 
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上 述 代码 的 输出 如 下 。 可 以 看 到 ，[2z] 


[sl], 3 
[s,x], 3 
[s,x,z], 2 
[s,z], 2 
[r], 3 
[r,x], 2 
[r,z], 2 
[y], 3 
[y,s], 2 
[y,s,x], 2 
[y,s,x,z], 2 
[y,s,2z], 2 
[y,x], 3 
[yx,2], 3 
[yt], 3 
[yt,s], 2 
[yt,s,x], 2 
[yt,s,x,z], 2 
[yt,s,z], 2 
[yt,x], 3 
[yt,x,z], 3 
[yt,z], 3 
[y,z2], 3 
[ql], 2 
[qsy], 2 
[qsy:x], 2 
[q/y:x,2], 2 
[qiy:t], 2 
[qsyit,x], 2 
[qsyit,x,z], 2 
[qiyit,z], 2 
[qsy,z], 2 
[q,x], 2 
[qx,2], 2 
[qt], 2 
[qt,x], 2 
[qs:t,x,z], 2 
[qst,z], 2 
[q,z], 2 
[x], 4 
[x,z2], 3 
[t], 3 
[t,s], 2 
[t,s,x], 2 
[t,s,x,z], 2 
[t,s,z], 2 
[t,x], 3 
[t,x,2], 3 
[t,z], 3 
[p], 2 
[p,r], 2 
[pr,2z2], 2 
[p,z2], 2 
[z], 5 
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5.6.2 FP-Growth 在 MovieLens 数据 集 上 的 实践 
下 面 在 MovieLens 数据 集 上 应 用 该 算法 来 找寻 高 频 的 电影 名 称 。 
(1) 通过 如 下 代码 实例 化 SparkContext: 


Val Se .= UtiLSe 
val rawData = Util.getUserData!() 
rawData.first() 


CO) 获得 原始 评级 数据 ， 并 打印 输出 其 中 的 第 一 个 : 


val rawRatings = rawData.map(_.split("\t").take(3)) 

rawRatings.first() 

val ratings = rawRatings.map { case Array (user, movie, rating) 
=> Rating(user.toInt, movie.toInt, rating.toDouble) 

} 

val ratingsFirst = ratings.first() 

println(ratingsFirst) 


(3) 载 入 电影 数据 并 获取 电影 名 : 


val movies = ULil.9g9etMovieData() 








val titles = movies.map(line => line.split("\\|").take(2)) 
.map(array => (array (0) .toInt, array (1))).collectAsMap() 
titles(123) 


(4) 借助 FP-Growth 算法 ， 找 寻 对 索引 号 为 501 ~ 900 的 这 400 名 用 户 来 说 的 高 频 电 影 。 
(5) 首先 通过 如 下 代码 来 创建 FP-Growth 模型 : 


val model = fpg 
.setMinSupport (0.1) 
.SetNumPartitions(1) 
.run(rddx) 


(6) 其 中 0.1 是 所 能 考虑 的 最 小 值 ，radx 是 上 述 400 名 用 户 的 电影 评级 对 应 的 RDD。 创建 好 
模型 后 ， 对 物品 集 迭 代 ， 并 打印 结 
这 可 通过 如 下 代码 实现 : 


Var eRDD = sc.emptyRDD 
var Z = SeqlString]() 





val 1 = ListBuffer() 
val aj = new Array[String] (400) 
var Ee, 必 
for (a <- 501 to 900) { 
val moviesForUserX = ratings.keyBy(_.user).lookup(a) 


val moviesForUserXx_10 = moviesForUserX.sortBy(-_.rating) .take(10) 
val moviesForUserX_ 10_ 1 = moviesForUserx_10.map(r => r.product) 
VAL em. 


for (x <- moviesForUserXx 10_1) { 
if (temp.equals("")) 
temp = x.toString 
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else { 
temp = temp + " "+X 
} 
} 
aj (i) = temp 
二 ,二 人 小 
} 
| 
val transaction = z.map(_.split(" ")) 


val rddx = sc.parallelize(transaction, 2).cache() 


val fpg = new FPGrowth() 

val model = fpg 
.SetMinSupport (0.1) 
.SetNumPpartitions (1) 
.run(rddx) 


model.freqlItemsets.collect().foreach { itemset => 
println(itemset.items.mkString("[", ",", "]") + ", " + itemset.freqg) 
} 


SG. Stop() 
输出 如 下 : 


[302], 40 
[258], 59 
[100], 49 
[286], 50 
[181], 45 
[127], 60 
[313], 59 
[300], 49 
[50], 94 


这 些 便 是 用 户 ID 介 于 501~900 的 用 户 的 高 频 电 影 和 相应 频率 。 
对 应 的 代码 位 于 : 


0 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 05/1.6.2/scala- 
spark-app/src/main/scala/com/sparksample/MovieLensFPGrowthApp.scala。 














5.7 小 结 





本 章 中 , 我 们 用 Spark 的 MLlib 库 训 练 了 一 个 协同 过 滤 推 荐 模型 。 我 们 也 学 会 了 如 何 使 用 该 
模型 来 向 用 户 推荐 他 们 可 能 会 喜好 的 物品 ， 以 及 找 出 和 指定 物品 类 似 的 物品 。 最 后 , 我 们 用 一 些 
常见 的 指标 对 该 模型 的 预测 能 力 进 行 了 评估 。 


下 一 章 将 讲 到 如 何 使 用 Spaxk 来 训练 一 个 模型 以 对 数据 分 类 ， 以 及 用 标准 的 评估 机 制 来 衡量 
模型 性 能 。 
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本 章 , 你 将 学 习 分 类 模型 的 基础 知识 以 及 如 何在 各 种 应 用 中 使 用 这 些 模型 。 分 类 通常 指 将 事 
物 分 成 不 同 的 类 别 。 在 分 类 模型 中 , 我 们 期 望 根据 一 组 特征 来 判断 事物 的 类 别 ， 这些 特 征 代表 了 
与 物品 、 对 象 、 事 件 或 上 下 文 相关 的 属性 ( 变量 )。 


最 简单 的 分 类 形式 是 分 为 两 个 类 别 ， 即 二 分 类 。 一 般 将 其 中 一 类 标记 为 正 类 ( 记 为 1 )， 另 
外 一 类 标记 为 负 类 (〈 记 为 -1 或 者 0 )。 下 图 展示 了 一 个 二 分 类 的 简单 例子 。 例 子 中 输入 的 特征 有 
二 维 ， 分 别 用 * 轴 和 ?了 轴 表示 每 一 维 的 值 。 我 们 的 目标 是 训练 一 个 模型 ， 它 可 以 将 这 个 二 维 空间 
中 的 新 数据 点 分 成 红色 和 蓝 色 两 类 。 
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一 个 简单 的 二 分 类 问题 


如 果 不 止 两 类 ， 则 称 为 多 类 别 分 类 ， 这 时 的 类 别 一 般 从 0 开始 进行 标记 ( 比如 ，5 个 类 别 用 
数字 0~4 表示 )。 多 分 类 的 示例 见 下 图 。 同 样 ， 为 了 方便 说 明 ， 假定 输入 的 是 二 维特 征 。 
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一 个 简单 的 多 类 别 分 类 问题 








分 类 是 监督 学 习 的 一 种 形式 , 我 们 用 带 有 类 标记 或 者 类 输出 的 训练 样本 训练 模型 ( 也 就 是 通 


x 


过 输出 结果 监 惠 


被 训练 的 模型 )。 
分 类 模型 适用 于 很 多 情形 ， 一 些 常 见 的 例子 如 下 : 


口 预测 互联 网 用 户 对 在 线 广告 的 点 击 概 率 , 这 本 质 上 是 一 个 二 分 类 问题 ( 点击 或 者 不 点 击 ); 
口 检测 欺诈 ， 这 同样 是 一 个 二 分 类 问题 ( 欺诈 或 者 不 是 欺诈 ); 
口 预测 拖欠 贷款 (二 分 类 问题 ); 
口 对 图 片 、 视 频 或 者 声音 分 类 ( 大 多 情况 下 是 多 分 类 ， 并 且 有 许多 不 同 的 类 别 ); 
口 对 新 闻 、 网 页 或 者 其 他 内 容 标记 类 别 或 者 打 标 签 ( 多 分 类 ); 
口 发 现 垃圾 邮件 、 垃 圾 页 面 、 网 络 入 侵 和 其 他 恶意 行为 ( 二 分 类 或 者 多 分 类 ); 
口 检测 故障 ， 比 如 计算 机 系统 或 者 网 络 的 故障 检测 ; 
口 根据 顾客 或 者 用 户 购买 产品 或 者 使 用 服务 的 概率 对 他 们 进行 排序 ; 
口 预测 顾客 或 者 用 户 中 谁 有 可 能 停止 使 用 某 个 产品 或 服务 。 
上 面 仅仅 列举 了 一 些 可 能 的 用 例 。 实际 上 , 在 现代 公司 特别 是 在 线 公 司 中 , 分 类 方法 可 以 说 
是 机 器 学 习 和 统计 领域 使 用 最 广泛 的 技术 之 一 。 
本 章 ， 我 们 将 : 
口 讨论 MLlib 中 各 种 可 用 的 分 类 模型 ; 
口 使 用 Spark 从 原始 输入 数据 中 抽取 合适 的 特征 ; 
口 使 用 MLlib 训练 若干 分 类 模型 ; 
口 用 训练 好 的 分 类 模型 做 预测 ; 
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口 应 用 一 些 标准 的 评价 方法 来 评估 模型 的 预测 性 能 ; 
口 使 用 第 4 章 中 的 特征 抽取 方法 来 说 明 如 何 改进 模型 性 能 ; 
口 研究 参数 调 优 对 模型 性 能 的 影响 ， 并 且 学 习 如 何 使 用 交叉 验证 来 选择 最 优 的 模型 参数 。 








6.1 分 类 模型 的 种 类 


我 们 将 讨论 Spark 中 常见 的 3 种 分 类 模型 : 线性 模型 、 决 策 树 和 朴素 贝 叶 斯 模型 。 线 性 模型 
相对 简单 ， 而 且 相 对 容易 扩展 到 非常 大 的 数据 集 ; 决策 树 是 一 种 强大 的 非 线 性 技术 ,训练 过 程 计 
算 量 大 并 且 较 难 扩 展 ( 幸运 的 是 ，MLlib 会 蔡 我 们 考虑 扩展 性 的 问题 ), 但 是 在 很 多 情况 下 性 能 
很 好 ; 朴素 贝 叶 斯 模型 简单 、 易 训练 ， 并且 具 有 高 效 和 并 行 的 优点 (实际 中 ,模型 训练 只 需要 遍 
历 整 个 数据 集 一 次 )。 当 采用 合适 的 特征 工程 时 ， 这 些 模型 在 很 多 应 用 中 都 能 达到 不 错 的 性 能 。 
朴素 贝 叶 期 模型 还 可 以 作为 一 个 很 好 的 模型 测试 基准 ， 用 于 度量 其 他 模型 的 性 能 。 


目前 ，Spark 的 MLlib 库 提供 了 基于 线性 模型 、 决 策 树 和 朴素 贝 叶 斯 的 二 分 类 模型 ， 以 及 基 
于 决策 树 和 朴素 贝 叶 斯 的 多 类 别 分 类 模型 。 本 书 为 了 方便 起 见 ， 将 关注 二 分 类 问题 。 
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6.1.1 线性 模型 


线性 模型 的 核心 思想 是 对 样本 的 预测 结果 ( 通常 称 为 目标 变量 或 者 因 变 量 ) 进行 建 模 ， 即 对 
输入 变量 〈 特征 或 者 自 变量 ) 应 用 简单 的 线性 预测 函数 。 





























p=/(w' x) 


其 中 y 是 目标 变量 ,w 是 参数 向 量 ( 也 称 为 权重 向 量 ), x 是 输入 特征 向 量 。(wx) 是 关于 权重 向 
量 w 和 特征 向 量 x 的 线性 预测 器 ( 又 称 向 量 点 积 )。 对 这 个 线性 预测 顺 ， 我 们 应 用 了 一 个 函数 了 
( 又 称 连接 函数 )。 


实际 上 ,通过 简单 改变 连接 函数 f[， 线 性 模型 不 仅 可 以 用 于 分 类 还 可 以 用 于 回归 。 标 准 的 线 
性 回归 ( 见 下 一 章 ) 使 用 对 等 连接 函数 (identity link， 即 直接 使 用 y= fw "x )， 而 二 分 类 使 用 上 
面 提 到 的 连接 函数 。 


让 我 们 来 看 一 个 在 线 广告 的 例子 。 例 子 中 , 如 果 网 页 中 展示 的 广告 没有 被 点 击 〈 称 为 曝光 )， 
则 目标 变量 标记 为 0 ( 在 数学 表示 中 通常 使 用 -1 ); 如 果 发 生 点 击 , 则 目标 变量 标记 为 1。 每 次 曝 
光 的 特征 向 量 由 曝光 事件 相关 的 变量 组 成 ( 比如 与 用 户 、 网 页 、 广 告 和 广告 客户 相关 的 特征 ， 以 
及 与 事件 场景 相关 的 其 他 因素 ， 比 如 设备 类 型 、 时 间 、 地 理 位 置 等 )。 


于 是 , 我 们 要 训练 一 个 模型 ， 将 给 定 输 入 的 特征 向 量 (广告 曝光 ) 映射 到 预测 的 输出 (点击 
或 者 未 点 击 )。 对 于 一 个 新 的 数据 点 ,我们 将 得 到 一 个 新 的 特征 向 量 ( 此 时 不 知道 预测 的 目标 变 
量 )， 并 将 其 与 权重 向 量 进行 点 积 。 然 后 对 点 积 的 结果 应 用 连接 函数 ， 最 后 函数 的 结果 便 是 预测 
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的 输出 〈 在 一 些 模型 中 ， 还 会 对 输出 结果 设 定 一 个 交 值 )。 

给 定 输入 数据 的 特征 向 量 和 目标 变量 ， 我 们 想 要 找到 能 够 对 数据 进行 最 佳 拟 合 的 权重 向 量 ， 
拟 合 的 过 程 即 最 小 化 模型 输出 与 实际 值 的 误差 。 这 个 过 程 称 为 模型 的 拟 合 、 训 练 或 者 优化 。 
具体 来 说 , 我 们 需要 找到 一 个 权重 向 量 , 它 能 够 最 小 化 所 有 训练 样本 的 由 损失 函数 计算 出 来 
的 损失 (误差 ) 之 和 。 损失 函数 的 输入 是 给 定 训 练 样本 的 权重 向 量 、 特 征 向 量 和 实际 输出 ， 而 输 
出 是 损失 。 实际 上 , 损失 函数 也 被 定义 为 连接 函数 , 每 个 分 类 或 者 回归 函数 会 有 对 应 的 损失 函数 。 
















































































若 需要 进一步 了 解 线 性 模型 和 损失 函数 的 细节 ,可 以 查阅 Spark 编程 指南 中 
线性 方法 一 节 中 关于 二 分 类 的 部 分 :http://spark.apache.org/docs/latest/mllib-linear- 
名 methods.html#binary-classification 和 http://spark.apache.org/docs/latest/ml-classification- 


regression.html#linear-methods。 


同时 ， 也 可 以 在 维基 百科 中 查阅 generalized linear model ( 广义 线性 模型 )。 


本 书 不 会 讨论 线性 模型 和 损失 函数 的 细节 , 只 介绍 MLlib 提供 的 两 个 适合 二 分 类 模型 的 损失 
函数 (更 多 内 容 请 看 Spark 文档 )。 第 一 个 是 logistic 损失 ( logistic loss )， 等 价 于 logistic 回归 模 
型 。 第 二 个 是 合 页 损失 〈hinge loss )， 等 价 于 线性 支持 向 量 机 ( SVM， support vector machine )。 
需要 指出 的 是 ， 这 里 的 SVM 严格 来 说 不 属于 广义 线性 模型 的 统计 框架 ,但 是 当 指 定 损失 函数 和 
连接 函数 时 在 使 用 方法 上 相同 。 

下 图 展示 了 与 0-1 损失 相关 的 logistic 损失 和 合 页 损失 。 对 二 分 类 来 说 ，0-1 损失 的 值 在 模型 
预测 正确 时 为 0， 在 模型 预测 错误 时 为 1。 实 际 中 ,0-1 损失 并 不 和 常用, 原因 是 这 个 损失 消 数 不 可 
微分 ,计算 梯 度 非常 困难 并 且 难 以 优化 。 而 其 他 的 损失 函数 作为 0-1 损失 的 近似 可 以 进行 优化 。 


















































-一 0-1 损 失 
7 -一 SVM 合 页 损失 
一 logistic 损 失 








损失 函数 LG/x)) 























决策 函数 x) 


logistic 损失 函数 、 合 页 损失 函数 以 及 0-1 损失 函数 
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上 图 来 自 scikit-learn 的 样 例 : http://scikit-learn.org/stable/auto_examples/linear_ 
model/plot sgd loss_functions.html。 
1. logistic 回归 


logistic 回归 是 一 个 概率 模型 ， 也 就 是 说 该 模型 预测 结果 的 值 域 为 [0,1]。 对 于 二 分 类 来 说 ， 
logistic 回归 的 输出 等 价 于 模型 预测 某 个 数据 点 属于 正 类 的 概率 估计 。logistic 回归 是 线性 分 类 模 
型 中 使 用 最 广泛 的 一 个 。 


上 面 提 到 过 ，logistic 回归 使 用 的 连接 函数 为 logistic 连接 : 























1/(L+exp(-mTIx)) 


logistic 回归 的 损失 消 数 是 logistic 损失 : 

















log(l + exp(—yw’ x)) 
其 中 y 是 实际 的 输出 值 ( 正 类 为 1， 负 类 为 -1 )。 
2. 多 分 类 logistic 回归 


多 分 类 nn 回归 ( multinomial logistic regression ) 针对 多 分 类 问题 。 它 支持 2 个 类 别 以 上 
的 输出 变量 。 与 二 分 类 logistic 回归 类 似 ， 多 元 logistic 回归 同样 使 用 最 大 似 然 估计 法 ( maximum 
likelihood estimation ) 来 计算 分 类 概率 。 


多 分 类 logistic 回归 通常 用 于 依赖 变量 值 是 类 别名 称 Cnominal ) 的 情况 。 它 是 指 能 依靠 可 观 
察 特征 和 参数 的 线性 组 合 ， 计 算出 归属 特定 分 类 概率 的 分 类 问题 。 


上 一 章 的 推荐 模型 中 使 用 了 MovieLens 数据 集 , 但 它 能 用 于 分 类 的 空间 有 限 , 故 本 章 会 使 用 
一 个 不 同 的 数据 集 。 本 章 使 用 的 数据 集 来 自 Kaggle 竞赛 。 它 由 StumbleUpon 提供 ， 对 应 的 问题 
是 根据 网 页 的 内 容 ， 判 断 给 定 网 页 的 流行 度 会 如 何 是 很 快 就 不 流行 ， 还 是 会 一 直流 行 。 






















































































数据 集 可 从 https:/www.kaggle.com/c/stumbleupon/data 下 载 。 在 接受 相关 协 
议 后 ， 便 可 下 载 训 练 数 据 ( train.tsv )。 有 关 该 比赛 的 更 多 信息 可 参见 
https://www.kaggle.com/c/stumbleupon。 
各 入 门 代码 位 于 : 
https://github.com/ml-resources/spark-ml/tree/branch-ed2/Chapter 06/2.0.0/scala- 


spark-app/src/main/scala/org/sparksamples/classification/stumbleupon 


使 用 Spark SQLContext 将 StumbleUpon 数据 存 为 一 个 临时 表 ， 其 结构 的 截图 如 下 。 
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| 一 一 一 — 一 -一 一 rr RE -- 

urllurlid boilerplate|alchemy_category|alchemy_category_score|avglinksize|commonlinkratio_1|commonlinkratio_2|commonlinkratio_3 | 

httpi//wwws convens ss | 7018|{"U convenien, ,, ? 多 119,0 0.745454545| 0.581818182 0.290909091 0.018181818| 

http://www. inside. .| 3402|{"u sidersh... ? ?11.883333333 8.71969697| 0.265151515 0.113636364 9.915151515| 

?| ?10.471502591| 0.190721649| 0.036082474| 0.0| 0.0| 

? ?| 2.41011236 0.469325153| 0.101226994 9.018404968 9.003067485 | 

? Ls 9.9 8.9| 80.0 9.9 9.9| 

?| ?14.327655311]| 8@.978757515| 8.895791583| 8.669138277| 8.422844888| 

? ?11,786407767 0.552631579] 0.,149122807 9.052631579 0.01754386| 

?| ?|3.417918448 9.541176471| 8.270588235 8.176479588 8.117647859| 

了 ?11.154761995 8.5844247791| 8.427728614 0.892359882 0.0| 

? ?|11,292682927 9.4219653181| 0.306358382 0.011560694 0.0| 

? ?|1,888888889 0.59375| 9,171875 9,9625 8,846875| 

? ?12.618982439 8.797317073| 9.33604336 9.119241192 9.951490515 | 

?| ?12.881944444| 0.54822335| 0.23857868| 9.106598985| 0.040609137| 

? ?| 1.76969697 90.381818182| 0.181818182 0.048484848 0.906050666| 

入 ?11.158288955 8.58591716| 9.428994083 09.023668639 9.9| 

{"tit ?1 ?12,1333333331 9,655737705 | 0.213114754| 0,196721311 0.196721311| 

http://allrecipes.,,| 5483|{"titl ? ?12,328562415 9,4277777781| 8,295555556 8,961111111 0.019444444| 

http://hypersapie, .| 4781|{"u ? ?| 2.85483871 9.428571429| 9.193896104 0.038961039 8.0| 

1 7853|{"tltt a 3 引 ?12.278481013| 0.552419355| 8,2661290321| 0.052419355 0.02016129| 

i 1033|{"titl yy ? ?11,127516779 0.636363636| 0.048484848 9.9 9,.9| 
mw Showing top 29 rows 





3. 可 视 化 StumbleUpon 数据 集 

利用 自 定 义 的 一 些 逻 辑 ， 可 以 将 数据 的 特征 数 减 少 为 2 个 ， 从 而 可 以 在 二 维 平 面 上 可 视 化 ， 
但 数据 的 总 行 数 不 变 。 

object DataPersistenceApp { 


def main(args: Array[String]) { 
val sc = new SparkContext ("local[1]", "Classification") 


// 从 如 下 地 址 获取 StumbleUpon 数据 集 : https://www.kaggle.com/c/stumbleupon 
val records = sc.textFile(SparkConstants.PATH 


+ "data/train noheader.tsv") .map(line => line.split("\t")) 


val data persistent = records.map { r => 


val trimmed = r.map(_.replaceAll("\"", "")) 
val label = trimmed(r.size - 1).toInt 
val features = trimmed.slice(4, r.size - 1) 
.map(d => if (d == "?") 0.0 else d.toDouble) 


val len = features.size.toInt 
val len 2 = math.floor(len / 2).toInt 
val x = features.slice(0, len 2) 


val y = features.slice(len 2 - 1, len) 

var i = 0 

Var Su x = 0.0 

Var Sun yy Ss 0 0 

while (i < x.lengthn) { 
sum x += Xx(i) 
i += 1 

} 

1 0 

while (i < y.lengthn) { 
sumy += y(i) 


i += 1 
} 
D1 A eh 
tf (Bun x := 00) A 
math.log(sum x) + "," + math.log(sum y) 
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} else { 
sum x + "," + math.log(sum y) 

: 

} else { 

CEU 00 { 
math.log(sum x) + "," + 0.0 

} else { 
sum x + "," + 0.0 


} 
} 


} 
val dataone = data persistent.first!() 
data_persistent.saveAsTextFile(SparkConstants.PATH 
+ "/results/raw-input-log") 
sc.stop() 
} 
} 


将 数据 变 为 二 维 后 ， 为 绘制 方便 ， 对 其 求 对 数 。 这 里 使 用 D3.js 绘图 ， 如 下 图 所 示 。 该 数据 
将 被 分 为 两 类 ， 后续 也 会 继续 采用 相同 的 基本 图 像 来 展现 类 别 划 分 。 
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4. 从 StumbleUpon 数据 集 提取 特征 

在 开始 之 前 ， 先 将 数据 文件 的 第 一 行 ( 即 列 名 ) 删除 。 这 能 简化 后 续 Spark 中 的 处 理 。 输 入 
cd 命令 ， 进 入 数据 所 在 的 目录 (这 里 称 PATH )， 运 行 如 下 命令 来 删除 第 一 行 ， 并 将 结果 输出 为 
一 个 名 为 train_noheader.tsv 的 新 文件 。 





> sed 1d train.tsv > train noheader.tsv 


现在 便 可 启动 Spark shell ( 记得 从 Spark 安装 目录 运行 下 面 的 命令 ): 





> ./bin/spark-shell --driver-memory 4g 


本 章 的 后 续 代 码 均 可 直接 在 Spark shell 中 输入 。 
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和 之 前 的 章节 类 似 ， 我 们 会 导入 原始 数据 到 一 个 RDD 中 ， 青 顺带 看 下 首 行 : 


val rawData = sc.textFile("/PATH/train noheader.tsv") 
val records = rawData.map (line => line.split("\t")) 
records.first() 


其 输出 如 下 : 


Array[String] = Array ("http://www.bloomberg.com/news/2010-12-23/ 
ibm-predicts-holographic-calls-air-breathing-batteries-by-2015.html", "4042", ... 


从 之 前 的 截图 中 可 以 看 到 数据 列 的 组 成 。 前 两 列 对 应 网 页 的 URL 和 ID。 下 一 列 包 含 部 分 原 
始 的 文本 内 容 。 之 后 是 该 页 面 归属 的 类 别 。 接 下 来 的 22 列 是 各 种 数值 或 类 别 特征 。 最 后 一 列 则 
对 应 问题 目标 ，1 表示 一 直流 行 ， 而 0 表示 一 直流 行 。 


现在 仅仅 直接 用 可 用 的 数值 特征 来 简单 试 下 。 由 于 各 个 类 别 变量 只 有 两 种 值 ， 而 我 们 已 经 有 
了 这 些 特征 对 应 的 之 一 编码 ， 故 不 再 需要 进一步 做 特征 提取 。 

从 数据 格式 来 看 ， 在 初始 处 理 过 程 中 需要 做 些 数据 清理 ,以 便 去 除 多 余 的 引用 字符 (" )。 数 
据 集 中 也 有 值 缺 失 ， 它 们 用 ?符号 标记 。 这 里 ， 我 们 简单 地 将 这 些 缺 失 值 用 0 代替 。 































































































import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.linalg.Vectors 


val data_persistent = records.map { r => 
val trimmed = r.map(_.replaceAll("\"", "")) 
val label = trimmed(r.size - 1).toInt 
val features = trimmed.slice(4, r.size - 1) 
.map(d => if (Q == "?") 0.0 else d.toDouble) 
LabeledPoint (Jabel，Vectors.dqense(features) ) 


} 

在 上 面 的 代码 中 ， 我 们 从 最 后 一 列 提取 出 1abel 变量 ， 从 第 5~25 列 提取 出 清理 并 处 理 过 缺 
失 值 后 的 特征 数组 。1label 变量 被 转换 为 一 个 整数 值 ， 而 上 述 数组 则 转换 为 Array [Double] 
类 型 。 最 后 ， 用 一 个 LabeledPoint 实例 对 1abel 和 上 述 特征 进行 封装 ， 将 各 特征 转换 为 一 个 
MLlib 向 量 。 


同时 ， 这 些 数据 和 数据 点 的 个 数 会 被 缓存 起 来 : 


data.cache 
val numData = data.count 


可 以 看 到 numpata 的 值 为 7395。 

后 面 会 进一步 探索 该 数据 集 , 但 现在 我 们 知道 其 中 有 些 特征 的 数值 为 负数 。 如 之 前 所 说 ， 朴 
素 贝 叶 斯 模型 需要 这 些 值 为 非 负 数 , 若 有 负数 则 会 抛 出 异常 。 所 以 , 这 里 先 将 所 输入 特征 向 量 中 
的 负数 全 部 转 为 0。 
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val nbData = records.map { r => 
val trimmed = r.map(_.replaceAll("\"", "")) 
val label = trimmed(r.size - 1).toInt 
val features = trimmed.slice(4, r.size - 1).map(d => if (Q = 
else d.toDouble) .map(d => if (d < 0) 0.0 else d) 
LabeledPoint (label, Vectors.dense(features)) 


} 


ll 
Oo 
[ee) 


5. stumbleUponExecutor 








StumbleUponExecutor 对 象 能 用 于 相应 分 类 模型 的 选择 和 运行 。 比 如 运行 Logistic- 
Regression、 执 行 logistic 回归 流程 ， 以 及 将 程序 参数 设置 为 DR。 对 于 其 他 命令 ， 参 见 如 下 代码 : 


def executeCommand (arg: String, vectorAssembler: VectorAssembler 
,， dataFrame: DataFrame, sparkContext: SparkContext) = arg match { 
case "LR" => LogisticRegressionPipeline 
.logisticRegressionPipeline(vectorAssembler, dataFrame) 


case "DT" => DecisionTreePipeline 
.decisionTreePipeline(vectorAssembler, dataFrame) 


case "RF" => RandomForestPipeline 
.randomForestPipeline (vectorAssembler, dataFrame) 


case "GBT" => GradientBoostedTreePipeline 
.gradientBoostedTreePipeline(vectorAssembler, dataFrame) 


case "NB" => NaiveBayesPipeline 
.naiveBayesPipeline(vectorAssembler, dataFrame) 


case "SVM" => SVMPipeline 
.SvmPipeline (sparkContext) 


} 


下 面 的 训练 会 将 StumbleUpon 数据 集 按 8 : 2 分 为 训练 数据 和 测试 数据 。 使 用 Logistic- 
Regression， 按 Spark 中 的 Trainvaliqationsplit 方式 来 构建 模型 ， 并 在 测试 数据 上 得 到 评 
佑 指标 。 


// 创建 LogisticRegression 对 象 
val lr = new LogisticRegression() 


为 了 创建 一 个 训练 流程 对 象 ， 我 们 会 使 用 ParamGridBuildero ParamGridBuilgder 用 于 构 
建 参数 网 格 〈param grid )。 参 数 网 格 是 一 个 参数 列表 ， 供 评估 器 〈estimator ) 从 中 选择 或 搜索 能 
构建 最 佳 模 型 的 参数 。 更 多 相关 信息 可 参见 : https://spark.apache.org/docs/2.0.0/api/java/org/apache/ 
spark/ml/tuning/ParamGridBuilder.html。 














// 用 ParamGridBuilder 来 设置 参数 

val paramGrid = new ParamGridBuilder() 
.addGrid(lr.regParam, Array (0.1, 0.01)) 
.addGrid(lr.fitIntercept) 
.addGrid(lr.elasticNetParam, Array (0.0, 0.25, 0.5, 0.75, 1.0)) 
.build() 


val pipeline = new Pipeline() .setStages (Array (vectorAssembler, lr)) 
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非 像 
上 述 





下 面 会 使 用 Trainvaliaqaationsplit 来 做 超 参数 的 调 优 。 它 对 每 个 参数 组 合 评估 一 次 ， 而 
CrossValidator 那样 评估 天 次 。 它 会 创建 单个 的 训练 -测试 数据 对 ， 且 两 者 的 分 割 是 参照 
比例 (trainRatio 参数 ) 来 进行 的 。 





TrainvalidationSplit 以 Estimator .EstimatorParamMaps 参数 内 含 的 一 组 ParamMaps ， 


以 及 








Evaluator 为 输入 。 更 多 信息 请 参考 如 下 链接 : http://spark.apache.org/docs/latest/api/scala/ 





index.html#org.apache.spark.ml.tuning.TrainValidationSplit。 代 码 如 下 : 


val trainValidationSplit = new TrainValidationSplit() 
.SetEstimator (pipeline) 
.SetEvaluator (new RegressionEvaluator) 
.SetEstimatorParamMaps (paramGrid) 
// 8 成 数据 用 于 训练 ， 余 下 2 成 用 于 验证 


.SetTrainRatio(0.8) 
val Array (training, test) = dataFrame.randomSplit (Array (0.8, 0.2), seed = 12345) 


// 运行 评估 器 
val model = trainValidationSplit.fit(training) 
val holdout = model.transform(test).select ("prediction","label") 


// 需要 将 类 型 转换 为 RegressionMetrics 
val rm = new RegressionMetrics(holdout.rdd.map(x => (x(0) .asInstanceOf [Doublel], 
x(1) .asInstanceOf [Double]))) 


"Test Metrics") 

"Test Explained Variance:") 
logger.infol(rm.explainedVariance) 
logger.info("Test R^2 Coef:") 


logger.infol( 

( 

( 

( 
logger.info (rm.r2) 

( 

( 

( 

( 


logger.info 


logger.info("Test MSE:") 
logger.info(rm.meanSquaredError) 
logger.info("Test RMSE:") 
logger.info(rm.rootMeanSquaredError) 





val totalPoints = dataFrame.count () 
val lrLIotalCorrect cs" noldout.rdd nmad (x = 


if (x(0).asInstanceOf [Double] == x(1).asInstanceOf [Double]) 1 else 0).sum() 
val accuracy = lrTotalCorrect / totalPoints 
println("Accuracy of LogisticRegression is: ", accuracy) 
其 输出 如 下 : 


Accuracy of LogisticRegression is: ,0.6374918354016982 
Mean Squared Error:,0.3625081645983018 
Root Mean Squared Error:,0.6020865092312747 


代码 位 于 如 下 路 径 : https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 06/2.0.0/ 


scala-spark-app/src/main/scala/org/sparksamples/classification/stumbleupon/LogisticRegressionPipelin 


e.Scala。 
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在 二 维 散 点 图 中 可 视 化 预测 数据 和 实际 数据 ， 其 结果 如 下 所 示 。 





Class0 图 
Classl 图 





预测 数据 














Class0 图 
Classl 图 





实际 数据 
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6. 线性 支持 向 量 机 


SVM 在 回归 和 分 类 方面 是 一 种 强大 且 流 行 的 技术 。 和 logistic 回归 不 同 , SVM 并 不 是 概率 模 
型 ， 但 是 可 以 基于 模型 对 正 负 的 估计 预测 类 别 。 








SVM 的 连接 函数 是 一 个 对 等 连接 函数 ， 因 此 预测 的 输出 表示 为 : 
y=w'x 


因此 ， 当 wx 的 估计 值 大 于 等 于 阔 值 0 时 ，SVM 将 数据 点 标记 为 1， 否则 标记 为 0 ( 其 中 阔 
值 是 SVM 可 以 自 适应 的 模型 参数 )。 


SVM 的 损失 函数 被 称 为 合 页 损失 ， 定 义 为 : 





max(0, 1 — yw x) 





SVM 是 一 个 最 大 间隔 分 类 器 ， 它 试图 训练 一 个 使 得 类 别 尽 可 能 分 开 的 权重 向 量 。 在 很 多 分 
类 任务 中 ，SVM 不 仅 性 能 突出 ， 而 且 在 大 数据 集 上 的 扩展 是 线性 的 。 
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SVM 有 着 大 量 的 理论 支撑 ， 本 书 不 做 讨论 ， 读 者 可 以 搜索 维基 百科 ， 或 访 
问 如 下 网 址 了 解 更 多 相关 知识 : http://www.support-vector-machines.org/。 


在 下 图 中 ， 基 于 原先 的 二 分 类 简单 样 例 ， 我 们 画 出 了 logistic 回归 ( 蓝 线 ) 和 线性 SVM ( 红 
线 ) 的 决策 函数 。 


从 下 图 中 可 以 看 出 ，SVM 可 以 有 效 定位 到 最 靠近 决策 函数 的 数据 点 ( 间隔 线 用 红色 的 虚线 
表示 ): 
































logistic 回归 和 线性 SVM 对 二 分 类 的 决策 函数 


下 面 用 Spark 的 SVM 算法 来 构建 模型 ， 在 StumbleUpon 数据 集 上 进行 训练 ， 并 得 到 在 测试 
数据 集 上 的 评估 指标 。 


def svmPipeline(sc: SparkContext) = { 
val records = sc.textFilel( 
"/home/ubuntu/work/ml-resources/spark-ml/train noheader.tsv") 
.map (line => line.split("\t")) 











val data = records.map { r => 
val trimmed = r.map(_.replaceAll("\"", "")) 
val label = trimmed(r.size - 1).toInt 
val features = trimmed.slice(4, r.size - 1) 
.map(d => if (Q == "?") 0.0 else d.toDouble) 
LabeledPoint (Jabel，Vectors.dqense(features) ) 


// SVM 参数 
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val numIterations = 10 


// 训练 模型 
val svmModel = SVMWithsGD.train(data, numIterations) 


// 去 除 默 认 阅 值 
svmModel .clearThreshold() 


val svmTotalCorrect = data.map { point => 
if (svmModel.predict (point.features) == point.label) 1 else 0 
}.sum() 


// 计算 准确 度 
Val svmAccuracy = svmTotalCorrect / dqata.count () 
println(svmAccuracy) 


} 
其 输出 如 下 : 
Area under ROC = 1.0 


以 上 代码 位 于 : 


https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 06/2.0.0/scala-spark-app/src/ 
main/scala/org/sparksamples/classification/stumbleupon/SVMPipeline.scala。 





6.1.2 ”朴素 贝 叶 斯 模型 


朴素 贝 叶 斯 是 一 个 概率 模型 , 通过 计算 给 定数 据点 属于 某 个 类 别 的 概率 来 进行 预测 。 朴素 贝 
叶 斯 模型 假定 各 个 特征 之 间 对 分 类 的 影响 相互 独立 ( 假定 各 个 特征 之 间 条 件 独立 )。 



























































基于 这 个 假设 , 属于 某 个 类 别 的 概率 表示 为 若干 概率 乘积 的 函数 ,其 中 这 些 概 率 包括 某 个 特 
征 在 给 定 某 个 类 别 的 条 件 下 出 现 的 概率 (条件 概 率 )， 以 及 该 类 别 的 概率 ( 先 验 概率 )。 这样 使 得 
模型 训练 非常 直接 且 易 于 处 理 。 类 别 的 先 验 概率 和 特征 的 条 件 概率 可 以 通过 数据 的 频率 估计 得 
到 。 分 类 过 程 就 是 在 给 定 特征 和 类 别 概率 的 情况 下 选择 最 可 能 的 类 别 。 


男 外 还 有 一 个 关于 特征 分 布 的 假设 ， 即 参数 的 估计 来 自 数据 。MLlib 实现 了 多 项 朴素 贝 叶 其 
( multinomial naive Bayes )， 其 中 假设 特征 分 布 是 多 项 分 布 ， 用 以 表示 特征 的 非 负 频率 统计 。 


























一 





上 述 假设 非常 适合 二 元 特征 (比如 大 之 一 , 大 维特 征 向 量 中 只 有 1 维 为 1， 其 他 为 0 )， 并 且 
普遍 用 于 文本 分 类 (第 4 章 中 介绍 的 词 袋 模型 是 一 个 典型 的 二 元 特征 表示 )。 








docs/latest/ml-classification-regression.html#naive-bayes 。 维基 百科 中 有 详细 的 数 


可 以 看 一 看 Spark 文档 中 MLlib-Naive Bayes 部 分 : http://spark.apache.org/ 
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下 图 展示 了 朴素 贝 叶 斯 在 二 分 类 样本 上 的 决策 函数 : 





























朴素 贝 叶 斯 模型 在 二 分 类 问题 上 的 决策 函数 


下 面 用 Spark 的 朴素 贝 叶 斯 算法 来 构建 模型 ， 在 StumbleUpon 数据 集 上 进行 训练 ， 并 得 到 在 
测试 数据 集 上 的 评估 指标 。 同 样 ， 数 据 会 按照 9 : 1 分 为 训练 数据 和 测试 数据 。 


def naiveBayesPipeline(vectorAssembler: VectorAssembler, 
val Array (training, test) = dataFrame.randomSplit (Array 


// 设置 Pipeline 
val stages = new mutable.ArrayBuffer[PipelineStage]() 


val labelIndexer = new StringIndexer () 
.SetInputCol ("label") 
.SetOutputCol ("indexedLabel") 

stages += labelIndexer 


// 创建 朴素 贝 叶 斯 模型 


val nb = new NaiveBayes () 


Stages += VvectorAssembler 
stages += nb 
val pipeline = new Pipeline().setStages (stages.toArray) 


// 拟 合 Pipeline 
val startTime = System.nanoTime() 

val model = pipeline.fit (training) 

val elapsedTime = (System.nanoTime() - startTime) / le9 
println(s"Training time: S$elapsedTime seconds") 
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val holdout = model.transform(test) .select ("prediction","label") 


// 选择 (prediction，true label) 并 计算 测试 误差 
val evaluator = new MulticlassClassificationEvaluator() 


.SetLabelCol ("label") 
.SetPredictionCol ("prediction") 
.SetMetricName ("accuracy") 





val mAccuracy = evaluator.evaluate (holdout) 
println("Test set accuracy = " + mAccuracy) 


} 
其 输出 如 下 : 


Training time: 2.114725642 seconds 
Accuracy: 0.5660377358490566 


完整 的 代码 位 于 如 下 地 址 : 


https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 06/2.0.0/scala-spark-app/src/ 


main/scala/org/sparksamples/classification/stumbleupon/NaiveBayesPipeline.scala。 


在 二 维 散 点 图 中 可 视 化 预测 数据 和 实际 数据 ， 


其 结 


> 


有 果 如 下 所 示 。 
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6.1.3 ”决策 树 


决策 树 是 一 种 强大 的 非 概率 模型 , 它 可 以 表达 复杂 的 非 线性 模式 和 特征 相互 关系 。 决 策 树 在 
很 多 任务 上 表现 出 的 性 能 很 好 ， 相 对 容易 理解 和 解释 ,可 以 处 理 类 别 特征 和 数值 特征 ， 同 时 不 要 
求 输 入 数据 归 一 化 或 者 标准 化 。 决 策 树 非常 适合 应 用 集成 方法 ， 比 如 多 个 决策 树 的 集成 〈 称 为 决 
策 树 森 林 )。 


决策 树 模型 就 好 比 一 棵 树 ， 叶 子 代表 值 为 0 或 1 的 分 类 ,树枝 代表 特征 。 下 图 展示 了 一 棵 简 
单 的 决策 树 ， 二 元 输出 分 别 是 “ 待 在 家 里 ”和 “去 海滩 ， 特 征 则 是 天 气 。 
































































































































简单 的 决策 树 


决策 树 算法 是 一 种 自 上 而 下 的 、 始 于 根 节 点 (或 特征 ) 的 方法 ,在 每 一 个 步 又 中 通过 评 佑 特 
征 分 割 的 信息 增益 ， 选 出 分 割 数据 集 最 优 的 特征 。 信 息 增 益 通过 计算 节点 不 纯度 ( 即 节点 标签 不 
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相似 或 不 同 质 的 程度 ) 减 去 分 割 后 的 两 个 子 节 点 不 纯度 的 加 权 和 。 对 于 分 类 任务 , 有 两 种 评估 方 
法 可 用 于 选择 最 好 的 分 割 : 基尼 不 纯度 (Gini impurity ) 和 信 ( entropy )。 


要 进一步 了 解决 策 树 算法 和 不 纯度 估计 ， 请 参考 Spark 编程 指南 中 的 
0 “MLlib-Decision Tree” 部 分 : http://spark.apache.org/docs/latest/ml-classification- 
regression.html#decision-tree-classifier。 


如 下 图 所 示 ， 和 之 前 的 模型 一 样 ， 我们 画 出 了 决策 树 模型 的 决策 边界 。 可 以 看 到 ,决策 树 能 
够 适应 复杂 和 非 线 性 的 模型 。 

















决策 树 在 二 分 类 问题 上 的 决策 函数 


下 面 用 Spark 的 决策 树 算法 来 构建 模型 ,在 StumbleUpon 数据 集 上 进行 训练 ， 并 得 到 在 测试 
数据 集 上 的 评估 指标 。 同 样 ， 数 据 会 按照 9 : 1 分 为 训练 数据 和 测试 数据 。 


def decisionTreePipeline(vectorAssembler: VectorAssembler, dataFrame: DataFrame) = { 
val Array (training, test) = dataFrame.randomSplit (Array (0.9, 0.1), seed = 12345) 


// 设置 Pipeline 
val stages = new mutable.ArrayBuffer[PipelineStagel] () 


val labelIndexer = new StringIndexer() 
.SetInputCol ("label") 
.SetOutputCol ("indexedLabel") 

stages += labelIndexer 


val dt = new DecisionTreeClassifier() 
.SetFeaturesCol (vectorAssembler.getOutputCol) 
.SetLabelCol ("indexedLabel") 
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.SetMaxDepth (5) 
.SetMaxBins (32) 
.SetMinInstancesPerNode(1) 
.SetMinInfoGain(0.0) 
.SetCacheNodelds (false) 
.SetCheckpointInterval (10) 


stages += vectorAssembler 
stages += dt 
val pipeline = new Pipeline() .setStages (stages.toArray) 


// 拟 合 Pipeline 

val startTime = System.nanoTime() 

val model = pipeline.fit (training) 

val elapsedTime = (System.nanoTime() - startTime) / le9 
println(s"Training time: S$elapsedTime seconds") 


val holdout = model.transform(test).select ("prediction","label") 


// 选择 (prediction，true label) 并 计算 测试 误差 
val evaluator = new MulticlassClassificationEvaluator() 
.SetLabelCol ("label") 
.SetPredictionCol ("prediction") 
.SetMetricName ("accuracy") 
val mAccuracy = evaluator.evaluate (holdout) 
println("Test set accuracy = " + mAccuracy) 


} 

输出 如 下 : 

Accuracy: 0.3786163522012579 
上 述 代 码 位 于 : 


https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 06/2.0.0/scala-spark-app/src/ 
main/scala/org/sparksamples/classification/stumbleupon/DecisionTreePipeline.scala。 


在 二 维 散 点 图 中 可 视 化 预测 数据 和 实际 数据 ， 其 结果 如 下 所 示 。 
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6.1.4 树 集成 模型 


集成 模型 指 将 基础 模型 组 合成 为 一 个 模型 。Spark 支持 两 种 主要 的 集成 算法 : 随机 森林 和 梯 
度 提 升 树 。 


1. 随机 森林 


随机 森林 即 决策 树 的 集成 ,， 它 由 多 个 决策 树 组 合 而 成 。 如 决策 树 一 样 ， 随 机 森林 能 处 理 类 别 
特征 、 支 持 多 分 类 而 且 不 需要 特征 缩放 。 

Spark MLlib 的 随机 森林 算法 同时 支持 二 分 类 和 多 类 别 分 类 ， 以 及 连续 型 和 类 别 型 特征 上 的 
回归 。 


下 面 用 Spark 的 随机 森林 算法 来 构建 模型 ， 在 StumbleUpon 数据 集 上 进行 训练 ， 并 得 到 在 测 
试 数据 集 上 的 评 佑 指标。 同样 ， 数 据 会 按照 9 : 1 分 为 训练 数据 和 测试 数据 。 

















def randomForestPipeline(vectorAssembler: VectorAssembler, dataFrame: DataFrame) = { 
val Array (training, test) = dataFrame.randomSplit (Array (0.9, 0.1), seed = 12345) 


// 设置 Pipeline 
val stages = new mutable.ArrayBuffer[PipelineStagel] () 


val labelIndexer = new StringIndexer() 
.SetInputCol ("label") 
.SetOutputCol ("indexedLabel") 

stages += labelIndexer 


val rf = new RandomForestClassifier!() 
.SetFeaturesCol (vectorAssembler.getOutputCol) 
.SetLabelCol ("indexedLabel") 
.SetNumTrees (20) 
.SetMaxDepth (5) 
.SetMaxBins (32) 
.SetMinInstancesPerNode(1) 
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.SetMinInfoGain(0.0) 
.SetCacheNodelIds (false) 
.SetCheckpointInterval (10) 


stages += vectorAssembler 
stages += rf 
val pipeline = new Pipeline().setStages (stages.toArray) 


// 拟 合 Pipeline 

val startTime = System.nanoTime () 

val model = pipeline.fit (training) 

val elapsedTime = (System.nanoTime() - startTime) / le9 
printlin(s"Training time: S$elapsedTime seconds") 


val holdout = model.transform(test) .select ("prediction","label") 


// 选择 (prediction，true label) 并 计算 测试 误差 
val evaluator = new MulticlassClassificationEvaluator() 
.SetLabelCol ("label") 
.SetPredictionCol ("prediction") 
.SetMetricName ("accuracy") 
val mAccuracy = evaluator.evaluate (holdout) 
println("Test set accuracy = " + mAccuracy) 


} 

其 输出 如 下 : 
Accuracy: 0.348 
上 述 代 码 位 于 : 


https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 06/2.0.0/scala-spark-app/src/ 
main/scala/org/sparksamples/classification/stumbleupon/RandomF orestPipeline.scala。 


在 二 维 散 点 图 中 可 视 化 预测 数据 和 实际 数据 ， 其 结果 如 下 所 示 。 
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2. 梯度 提升 树 


梯度 提升 树 是 决策 树 的 集成 。 它 迭代 地 对 决策 树 进行 训练 以 最 小 化 损失 函数 。 它 能 处 理 类 别 
型 特征 、 支 持 多 类 别 分 类 日 不 需要 特征 缩放 。 


Spark MLlib 中 梯度 提升 树 是 通过 现 有 决策 树 的 实现 而 实现 的 。 它 同时 支持 分 类 和 回归 。 


下 面 用 Spark 的 梯度 提升 树 算 法 来 构建 模型 ， 在 StumbleUpon 数据 集 上 进行 训练 ， 并 得 到 在 6 
测试 数据 集 上 的 评估 指标 。 同 样 ， 数 据 会 按照 9 : 1 分 为 训练 数据 和 测试 数据 。 代 码 如 下 : 


val Array (training, test) = dataFrame.randomSplit (Array (0.9, 0.1), seed = 12345) 











// 设置 Pipeline 
val stages = new mutable.ArrayBuffer[PipelineStagel] () 


val labelIndexer = new StringIndexer() 
.SetInputCol ("label") 
.SetOutputCol ("indexedLabel") 

stages += labelIndexer 


// 创建 梯度 提升 树 模型 

val gbt = new GBTClassifier() 
.SetFeaturesCol (vectorAssembler.getOutputCol) 
.SetLabelCol ("indexedLabel") 
.SetMaxIter (10) 


stages += vectorAssembler 
stages += gbt 
val pipeline = new Pipeline().setStages (stages.toArray) 


// 拟 合 Pipeline 

val startTime = System.nanoTime() 

val model = pipeline.fit (training) 

val elapsedTime = (System.nanoTime() - startTime) / le9 
println(s"Training time: SelapsedTime seconds") 
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val holdout = model.transform(test).select ("prediction","label") 


// 需 将 类 型 转 为 RegressionMetrics 
val rm = new RegressionMetrics(holdout.rdd.map(x => (x(0) .asInstanceOf [Doublel], 
x(1) .asInstanceOf [Double]))) 


"Test Metrics") 
"Test Explained Variance:") 


logger.infol( 
logger.infol( 
logger.infol(rm.explainedVariance) 
logger.info("Test R^2 Coef:") 
logger.info (rm.r2) 
logger.info("Test MSE:") 
logger.info(rm.meanSquaredError) 
( 
( 





Jogger.info("Test RMSE:") 
logger.infol(rm.rootMeanSquaredError) 


val predictions = 
model.transform(test) .select ("prediction") .rdd.map(_.getDouble(0)) 

val labels = model.transform(test).select ("label") .rdd.map(_.getDouble(0)) 
val accuracy = new MulticlassMetrics (predictions.zip(labels)) .precision 
DEintlii(s "~ GEGEaeG 二 EGG 


输出 如 下 : 
Accuracy: 0.3647 
完整 代码 参见 如 下 地 址 : 


https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 06/2.0.0/scala-spark-app/src/ 
main/scala/org/sparksamples/classification/stumbleupon/GradientBoostedTreePipeline.scala。 


在 二 维 散 点 图 中 可 视 化 预测 数据 和 实际 数据 ， 其 结果 如 下 所 示 。 
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3. 多 层 感知 分 类 器 


神经 网 络 是 一 个 复杂 的 自 适应 系统 , 它 会 借助 各 权重 的 变更 而 改变 信息 流 , 进而 改变 自己 的 
内 部 结构 。 针 对 多 层 神 经 网 络 的 权重 优化 过 程 也 称 为 反 向 传播 ( backpropagation ),。 反问 传播 超出 
了 本 书 讨论 范围 ， 另 也 涉及 激活 函数 和 基本 的 微 积 分 知识 。 

多 层 感知 分 类 器 (multilayer perceptron classifier ) 基于 前 向 反馈 ( feed-forward ) 人 工 神经 网 
络 。 它 由 多 个 神经 层 构成 ,每 层 都 与 下 一 层 全 连接 。 其 输入 层 的 各 节点 对 应 输入 数据 。 其 他 节点 
都 会 对 经 该 节点 的 输入 、 相 应 的 权重 和 偏 置 ( bias ) 进 行 线性 组 合 , 再 应 用 一 个 激活 函数 (activation 
function ) 或 连接 函数 后 ， 映 射 为 对 应 的 输出 。 

下 面 用 Spark 的 多 层 感知 分 类 器 算法 来 构建 模型 ,在 libsvm 样 例 数据 集 上 进行 训练 , 并 得 到 
在 测试 数据 集 上 的 评 佑 指标。 同样 ， 数 据 会 按照 6 : 4 分 为 训练 数据 和 测试 数据 。 代 码 如 下 : 


object MultilayerPerceptronClassifierExample { 
































def main(args: Array[String]): Unit = { 
val spark = SparkSession 
.builder 
.appName ("MultilayerPerceptronClassifierExample") 
.getOrCreate() 


// 将 LIBSVM 格式 的 数据 载 入 并 转 为 一 个 DataFrame 
val data = spark.read.format ("lipbsvm") 
.load("/Users/manpreet.singh/Sandbox/codehub/github/machinelearning/spark-ml 
/Chapter_06/2.0.0/scala-spark-app/src/main/scala/org/sparksamples/classification/ 
dataset/spark-data/sample multiclass_classification data.txt") 


// 将 数据 分 割 为 训练 数据 和 测试 数据 

val splits = data.randomSplit (Array (0.6, 0.4), seed = 1234L) 
val train = splits(0) 

val test = splits(1) 


// 指定 神经 网 络 的 层 : 
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// 输入 层 有 4 个 特征 ， 中 间 的 两 层 分 别 有 5 个 特征 和 4 个 特征 
// 输出 层 的 大 小 则 为 3 
val layers = Arrayl[lInt] (4, 5, 4, 3) 


// 创建 并 设置 训练 器 
val trainer = new MultilayerPerceptronClassifier() 
.SetLayers (layers) 
.SetBlockSize(128) 
.SetSeed(1234L) 
.SetMaxIter (100) 


// 训练 模型 
val model = trainer.fit (train) 


// 计算 在 测试 数据 集 上 的 准确 度 

val result = model.transform(test) 

val predictionAndLabels = result.select ("prediction", "label") 

val evaluator = new MulticlassClassificationEvaluator() 
.SetMetricName ("accuracy") 


println("Test set accuracy = " + evaluator.evaluate (predictionAndLabels)) 
SDark .stop () 
} 
} 
输出 如 下 : 


Precision = 1.0 
完整 代码 参见 如 下 地 址 : 


https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 06/2.0.0/scala-spark-app/src/ 
main/scala/org/sparksamples/classification/stumbleupon/MultilayerPerceptronClassifierExample.scala。 
在 继续 之 前 ， 请 注意 如 下 特征 提取 和 分 类 示例 所 用 的 函数 来 自 Spark 1.6 的 
0 MLlib。 请 参照 早先 的 代码 ， 使 用 Spark 2.0 的 基于 Dataframe 的 API。Spark 2.0 
中 基于 RDD 的 API 在 本 书写 作 时 仍 处 于 维护 状态 。 


6.2 ”从 数据 中 抽取 合适 的 特征 


回顾 第 4 章 ,， 可 以 发 现 大 部 分 机 器 学 习 模 型 以 特征 向 量 的 形式 处 理 数值 数据 。 另 外 ,对 于 分 
类 和 回归 等 监督 学 习 方法 ， 需 要 同时 提供 目标 变量 〈 或 者 多 类 别 情况 下 的 变量 ) 和 特征 向 量 。 








T 




















MLlib 中 的 分 类 模型 通过 LabeledPoint 对 象 操作 ， 其 中 封装 了 目标 变量 〈 标签 ) 和 特征 
向 量 : 


case class LabeledPoint (label: Double, features: Vector) 
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虽然 在 使 用 分 类 模型 的 很 多 样 例 中 会 磁 到 向 量 格式 的 数据 集 , 但 在 实际 工作 中 , 通常 还 需要 
从 原始 数据 中 抽取 特征 。 正 如 前 几 章 介绍 的 ,这 包括 封装 数值 特征 、 缩 放 或 者 正则 化 特征 ， 以 及 
使 用 上 之 一 编码 表示 类 属 特征 等 预 处 理 和 转换 。 



































6.3 训练 分 类 模型 


上 面 已 从 数据 集中 提取 了 基本 的 特征 并 且 创 建 了 输入 RDD， 接 下 来 开始 训练 各 种 模型 吧 。 
为 了 比较 不 同 模型 的 性 能 ， 我 们 将 训练 logistic 回归 、SVM、 朴 素 贝 叶 斯 和 决策 树 模 型 。 你 会 发 
现 每 个 模型 的 训练 方法 几乎 一 样 ， 不 同 的 是 每 个 模型 都 有 着 自己 特定 可 配置 的 参数 。MLlib 大 多 
数 情况 下 会 设置 明确 的 默认 值 , 但 实际 上 , 最 好 的 参数 配置 需要 通过 评估 技术 来 选择 ,这 会 在 后 
续 章 节 中 进行 讨论 。 





















































在 Kaggle/StumbleUpon evergreen 的 分 类 数据 集中 训练 分 类 模型 


现在 可 以 对 输入 数据 应 用 MLlib 的 模型 了 。 首 先 , 需要 导入 必要 的 类 ,并 对 每 个 模型 配置 一 
些 基 本 的 输入 参数 。 其 中 , 需要 为 logistic 回归 和 SVM 设置 迭代 次 数 , 为 决策 树 设置 最 大 树 深度 。 


























import org.apache.spark.mllib.classification.LogisticRegressionWithSsGD 
import org.apache.spark.mllib.classification.SVMWithSGD 

import org.apache.spark.mllib.classification.NaiveBayes 

import org.apache.spark.mllib.tree.DecisionTree 

import org.apache.spark.mllib.tree.configuration.Algo 

import org.apache.spark.mllib.tree.impurity.Entropy 

val numIterations = 10 
val maxTreeDepth = 5 


现在 ,依次 训练 每 个 模型 。 首 先 训练 logistic 回归 模型 : 











val lrModel = LogisticRegressionWithSGD.train(data, numIterations) 


你 将 看 到 如 下 输出 : 


14/12/06 13:41:47 INFO DAGScheduler: Job 81 finished: reduce at 
RDDFunctions.scala:112, took 0.011968 s 

14/12/06 13:41:47 INFO GradientDescent: GradientDescent. 
runMiniBatchSGD finished. Last 10 stochastic losses 0.6931471805599474, 
1196521.395699124, Infinity, 1861127.002201189, Infinity, 
2639638.049627607, Infinity, Infinity, Infinity, Infinity 

lrModel: org.apache.spark.mllib.classification.LogisticRegressionModel = 
(weights=[-0.11372778986947886,-0.511619752777837, 


接 下 来 ， 训 练 SVM 模型 


val svmModel = SVMWithSGD.train(dqata，numIterations ) 
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你 将 看 到 如 下 输出 : 


14/12/06 13:43:08 INFO DAGScheduler: Job 94 finished: reduce at 
RDDFunctions.scala:112, took 0.007192 s 

14/12/06 13:43:08 INFO GradientDescent: GradientDescent .runMiniBatchsGD 
finished. Last 10 stochastic losses 1.0, 2398226.619666797, 
2196192.9647478117, 3057987.2024311484, 271452.9038284356, 
3158131.191895948, 1041799.350498323, 1507522.941537049, 
1754560.9909073508, 136866.76745605646 

svmModel: org.apache.spark.mllib.classification.SVMModel] = (weigh 
ts=[-0.12218838697834929,-0.5275107581589767, 














接 下 来 训练 朴素 贝 叶 斯 模型 。 记 住 要 使 用 处 理 过 的 没有 负 特 征 值 的 数据 : 
val nbModel = NaiveBayes.train (nbData) 


输出 如 下 : 








14/12/06 13:44:48 INFO DAGScheduler: Job 95 finished: collect at 
NaiveBayes.scala:120, took 0.441273 s 


nbModel: org.apache.spark.mllib.classification.NaiveBayesModel = org. 
apache.spark.mllib.classification.NaiveBayesModel@666ac612 


里 、 名 
最 后 训练 决策 树 : 
val dtModel = DecisionTree.train(data, Algo.Classification, Entropy, maxTreeDepth) 


输出 如 下 : 





14/12/06 13:46:03 INFO DAGScheduler: Job 104 finished: collectAsMap at 
DecisionTree.scala:653, took 0.031338 s 


total: 0.343024 

findsplitsBins: 0.119499 

findBestSplits: 0.200352 

chooseSplits: 0.199705 
dtModel: org.apache.spark.mllib.tree.model.DecisionTreeModel] = 
DecisionTreeModel classifier of depth 5 with 61 nodes 











注意 ， 上 面 将 决策 树 的 模式 或 Algo 设 置 为 Classification,， 并 是 使 用 了 炉 来 衡量 不 纯度 。 





6.4 使 用 分 类 模型 








现在 我 们 有 4 个 在 输入 标签 和 特征 下 训练 好 的 模型 。 接 下 来 看 看 如 何 使 用 这 些 模型 进行 预 




















测 。 这 里 将 使 用 同样 的 训练 数据 来 展示 每 个 模型 的 预测 方法 。 
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6.4.1 在 Kaggle/StumbleUpon evergreen 数据 集 上 进行 预测 
这 里 以 logistic 回归 模型 为 例 ( 其 他 模型 的 处 理 方法 类 似 ): 





val dataPoint = data.first 
val prediction = lrModel.predict (dataPoint.features) 


输出 如 下 : 
prediction: Double = 1.0 


可 以 看 到 对 于 训练 数据 中 的 第 一 个 样本 ， 模 型 预测 值 为 1， 即 会 一 直流 行 。 让 我 们 来 检验 一 
下 这 个 样本 真正 的 标签 : 








val trueLabel = dataPoint.label 

输出 如 下 : 

trueLabel: Double = 0.0 

可 以 看 到 ， 这 个 样 例 中 我 们 的 模型 预测 出 错 了 1! 
我 们 可 以 将 RDpD [Vector] 整 体 作 为 输入 来 做 预测 : 


val predictions = lrModel.predict (data.map(lp => lp.features)) 
predictions.take(5) 


输出 如 下 : 


Array[Double] = Array(1.0, 1.0, 1.0, 1.0, 1.0) 





6.4.2 ”评估 分 类 模型 的 性 能 


在 使 用 模型 做 预测 时 ,如 何 知道 预测 得 到 底 好 不 好 呢 ? 换 名 话说 , 应 该 知道 怎么 评估 模型 的 
性 能 。 通 常 在 二 分 类 中 使 用 的 评估 方法 包括 : 预测 正确 率 和 错误 率 、 准 确 率 和 召回 率 、 准 确 率 - 
召回 率 曲线 下 的 面积 、ROC (receiver operating characteristic ) 曲线 、ROC 曲线 下 的 面积 (AUC ) 
和 F-Measure。 


























6.4.3 ”预测 的 正确 率 和 错误 率 
二 分 类 的 预测 正确 率 可 能 是 最 简单 的 评测 方式 。 其 正确 率 等 于 训练 样本 中 被 正确 分 类 的 数目 
除 以 总 样本 数 。 类 似 地 ， 错 误 率 等 于 训练 样本 中 被 错误 分 类 的 样本 数目 除 以 总 样本 数 。 
下 面 通过 对 输入 特征 进行 预测 并 将 预测 值 与 实际 标签 进行 比较 , 计算 出 模型 在 训练 数据 上 的 
正确 率 。 对 正确 分 类 的 样本 数目 求 和 并 除 以 样本 总 数 ， 得 到 平均 分 类 正确 率 : 
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val lrTotalCorrect = data.map { point => 


if (lrModel.predict (point.features) == point.label) 1 else 0 
} .Sum 
val lrAccuracy = lrTotalCorrect / data.count 
输出 如 下 : 


lrAccuracy: Double = 0.5146720757268425 


这 得 到 了 51.5% 的 正确 率 , 结果 看 起 来 不 是 很 好 。 该 模型 仅仅 预测 对 了 一 半 的 训练 数据 ， 和 
随机 猜测 差不多 。 














注意 ， ed 好 为 1 或 0。 预 测 的 输出 
必须 转换 为 预测 类 别 。 这 是 通过 在 分 类 器 的 决策 函数 或 打分 
实现 的 。 

比如 二 分 类 的 logistic 回归 这 个 概率 模型 会 在 打分 函数 中 返回 类 别 为 1 的 估 

0 计 概 率 。 因 此 典型 的 决策 阔 值 是 0.5。 于 是 ， 如 果 类 别 1 的 概率 估计 超过 50%， 

这 个 模型 会 将 样本 标记 为 类 别 1， 否 则 标记 为 类 别 0。 

在 一 些 模型 中 , 国 值 本 身 其 实 也 可 以 作为 模型 参数 进行 调 优 。 接 下 来 我 们 将 
看 到 阅 值 在 评估 方法 中 也 是 很 重要 的 。 


其 他 模型 如 何 呢 ? 让 我 们 来 计算 其 他 3 个 模型 的 正确 率 : 


val svmTotalCorrect = data.map { point => 


通常 是 实数 ， 然 后 
a 








if (svmModel.predict (point.features) == point.label) 1 else 0 
} .Sum 
val nbTotalCorrect = nbData.map { point => 

if (nbModel.predict (point.features) == point.label) 1 else 0 
} .Sum 


， 决 策 树 的 预测 阔 值 需要 明确 给 出 ， 如 下 面 的 加 粗 部 分 所 示 


val dtTotalCorrect = data.map { point => 
val Score = dtModel .predict (point.features) 
val predicted = if (score > 0.5) 1 else 0 
if (predicted == point.label) 1 else 0 

} .Sum 


现在 来 看 看 其 他 3 个 模型 的 正确 率 。 

首先 是 SVM 模型 : 

val svmAccuracy = svmTotalCorrect / numData 
SVM 模型 的 预测 输出 如 下 : 

svmAccuracy: Double = 0.5146720757268425 


接着 是 朴素 贝 叶 斯 模型 : 
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val nbAccuracy = nbTotalCorrect / numData 
朴素 贝 叶 斯 模型 的 输出 如 下 : 

nbAccuracy: Double = 0.5803921568627451 
最 后 ， 让 我 们 来 计算 决策 树 的 正确 率 : 

val dtAccuracy = dtTotalCorrect / numData 
决策 树 的 输出 如 下 : 

dtAccuracy: Double = 0.6482758620689655 


对 比 发 现 ，SVM 和 朴素 贝 叶 斯 模型 性 能 都 较 差 ， 而 决策 树 模型 的 正确 率 达 65%， 但 还 不 是 
































6.4.4 ”准确 率 和 召回 率 
在 信息 检索 中 ， 准 确 率 通常 用 于 评价 结果 的 质量 ， 而 召回 率 用 来 评价 结果 的 完整 性 。 


在 二 分 类 问题 中 ， 准 确 率 定义 为 真 阳 性 ( true positives ) 的 数目 除 以 真 阳性 和 假 阳 性 ( false 
positives ) 的 总 数 ， 其 中 真 阳 性 是 指 被 正确 预测 为 类 别 1 的 样本 ， 假 阳性 是 被 错误 预测 为 类 别 1 
的 样本 。 如 果 每 个 被 分 类 器 预测 为 类 别 1 的 样本 确实 属于 类 别 1， 那 么 准确 率 达 到 100%。 


召回 率 (recall ) 定义 为 真 阳性 的 数目 除 以 真 阳性 和 假 阴 性 的 和 ， 其 中 假 阴 性 是 类 别 为 1 却 
被 预测 为 0 的 样本 。 如 果 任 何 一 个 类 型 为 1 的 样本 没有 被 错误 预测 为 类 别 0 ( 即 没有 假 阴 性 ), 那 
么 召回 率 达 到 100%。 


通常 ,准确 率 和 召回 率 是 负 相 关 的 ,高 准确 率 常常 对 应 低 召 回 率 , 反之 亦 然 。 为 了 说 明 这 一 
点 ， 假 定 我 们 训练 了 一 个 模型 ， 其 预测 输出 永远 是 类 别 1。 因 为 总 是 预测 输出 类 别 1， 所 以 模型 
预测 结果 不 会 出 现 假 阴 性 ,这 样 也 不 会 错过 任何 类 别 1 的 样本 。 于 是 , 得 到 模型 的 召回 率 是 1.0。 
另 一 方面 ， 假 阳性 会 非常 高 ， 这 意味 着 准确 率 非常 低 〈 这 依赖 各 个 类 别 在 数据 集中 确切 的 分 布 
情况 )。 

准确 率 和 召回 率 在 单独 度量 时 用 处 不 大 ， 但 是 它们 通常 会 一 起 用 于 组 成 聚合 或 者 平均 度量 。 
二 者 同时 也 依赖 于 模型 中 选择 的 阔 值 。 

觉 上 来 讲 ， 当 赣 值 低 于 某 个 程度 时 ， 模 型 的 预测 结果 永远 是 类 别 1。 因 此 ， 模 型 的 召回 率 
为 1， 但 是 准确 率 很 可 能 很 低 。 相 反 ， 当 阔 值 足够 大 时 ， 模 型 的 预测 结果 永远 会 是 类 别 0。 此 时 ， 
模型 的 召回 率 为 0， 因为 模型 不 能 预测 任何 真 阳 性 的 样本 ， 所 以 很 可 能 会 有 很 多 的 假 阴 性 样本 。 
不 仅 如 此 ， 因 为 这 种 情况 下 真 阳性 和 假 阳 性 为 0， 所 以 无 法 定义 模型 的 准确 率 。 


下 图 所 示 的 准确 率 -召回 率 (PR ) 曲线 ， 表 示 给 定 模 型 随 着 决策 阔 值 的 改变 ， 准 确 率 和 召回 
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率 的 对 应 关系 。PR 曲线 下 的 面积 为 平均 准确 率 。 直 觉 上 ，PR 曲线 下 的 面积 为 1 等 价 于 一 个 完美 
模型 ， 其 准确 率 和 召回 率 达 到 100%。 














准确 率 -召回 率 曲线 (曲线 下 的 面积 为 0.69) 












































更 多 关于 准确 率 、 召 回 率 和 PR 曲线 下 面积 的 资料 ,请 查阅 :https:/en.wikipedia. 
种 org/wiki/Precision and recall 和 https://en.wikipedia.org/wiki/Evaluation measures_ 
(information retrieval)#Average precision。 
6.4.5 ”ROC 曲线 和 AUC 
ROC 曲线 在 概念 上 和 PR 曲线 类 似 ， 它 是 对 分 类 带 的 真 阳性 率 - 假 阳 性 率 的 图 形 化 解释 。 


真 阳性 率 (TPR ) 是 真 阳性 的 样本 数 除 以 真 阳 性 和 假 阴 性 的 样本 数 之 和 。 换 名 话说 ，TPR 是 
真 阳 性 数目 占 所 有 正 样本 的 比例 。 这 和 之 前 提 到 的 召回 率 类 似 , 通常 也 称 为 敏感 度 ( sensitivity )。 


假 阳 性 率 ( FPR ) 是 假 阳 性 的 样本 数 除 以 假 阳 性 和 真 阴 性 〈 被 正确 预测 为 类 别 0 的 样本 数 ) 
的 样本 数 之 和 。 换 名 话说 ，FPR 是 假 阳 性 样本 数 占 所 有 负 样 本 总 数 的 比例 。 


和 准确 率 和 召回 率 类 似 , ROC 曲线 (下 图 ) 表 示 了 分 类 需 性 能 在 不 同 决策 阔 值 下 TPR 对 FPR 
的 折 中 。 曲 线 上 每 个 点 代表 分 类 器 决策 函数 中 不 同 的 阔 值 。 


























6.4 使 用 分 类 模型 195 





ROC 曲 线 (曲线 下 的 面积 为 0.70) 











Ek 0.6 
假 阳性 率 





ROC 下 的 面积 (通常 称 作 AUC ) 表示 平均 值 。 同样 ， AUC 为 1.0 时 表示 一 个 完美 的 分 类 器 ， 
0.5 则 表示 一 个 随机 的 性 能 。 于 是 ， 一 个 模型 的 AUC 为 0.5 时 和 随机 猜测 效果 一 样 。 
因为 PR 曲线 下 的 面积 和 ROC 曲线 下 的 面积 经 过 归 一 化 (最 小 值 为 0, 最 大 


0 值 为 1 )， 所 以 我 们 可 以 用 这 些 度量 方法 比较 不 同 参数 配置 下 的 模型 ， 甚 至 可 以 
比较 完全 不 同 的 模型 。 因 此 ， 这 两 个 方法 在 模型 评估 和 选择 上 也 很 常用 。 


MLlib 内 置 了 一 系列 方法 用 来 计算 二 分 类 的 PR 曲线 下 的 面积 和 ROC 曲线 下 的 面积 。 下 面 我 





们 针对 每 一 个 模型 来 计算 这 些 指标 : 
import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics 


val metrics = Seq(lrModel, svmModel) .map { model => 
val scoreAndLabels = data.map { point => 
(model .predict (point.features), point.label) 


} 
new BinaryClassificationMetrics(scoreAndLabels) 
metrics.areaUnderPR, metrics.areaUnderROC) 


val metrics = 
(model .getClass.getSimpleName, 


} 
我 们 之 前 已 经 训练 了 朴素 贝 叶 斯 模型 并 计算 了 准确 率 ， 其 中 使 用 的 数据 集 是 nbpata 版 本 ， 


这 里 用 同样 的 数据 集 计 算 分 类 的 结果 。 


val nbMetrics = Seq(nbModel) .map{ model => 
val scoreAndLabels = nbData.map { point => 
val score = model.predict (point.features) 
(If (score > 0.5) 1.0 else 0.0, point.label) 





























196 第 6 章 Spark 构建 分 类 模型 





} 

val metrics = new BinaryClassificationMetrics(scoreAndLabels) 
(model .getClass.getSimpleName, metrics.areaUnderPR, 
metrics.areaUnderROC) 


} 


因为 DecisionTreeModel 模型 没有 实现 其 他 3 个 模型 都 有 的 classificationModel 接 
口 ， 所 以 我 们 需要 单独 为 这 个 模型 编写 如 下 代码 以 计算 结果 : 




















val dtMetrics = Seq(dtModel) .map{ model => 
val scoreAndLabels = data.map { point => 
val Score = model.predict (point.features) 
(if (Score > 0.5) 1.0 else 0.0, point.label) 
} 
val metrics = new BinaryClassificationMetrics (scoreAndLabels) 
(model.getClass.getSimpleName, metrics.areaUnderPR, metrics.areaUnderROC) 
} 
val allMetrics = metrics ++ nbMetrics ++ dtMetrics 
allMetrics.foreach{ case (m, pr, roc) => 
printlin(f"s$m, Area under PR: S$S{pr * 100.0}%2.4f%%, Area under 
ROC: S${roc * 100.0}%2.4f%%") 
} 


你 的 输出 应 该 如 下 : 


LogisticRegressionModel, Area under PR: 75.6759%, Area under ROC: 
50.1418% 

SVMModel, Area under PR: 75.6759%, Area under ROC: 50.1418% 

NaiveBayesModel, Area under PR: 68.0851%, Area under ROC: 58.3559% 

DecisionTreeModel, Area under PR: 74.3081%, Area under ROC: 64.8837% 


我 们 可 以 看 到 ， 所 有 模型 得 到 的 平均 准确 率 差不多 。 

logistic 回归 和 SVM 的 AUC 的 结果 在 0.5 左右 , 表明 这 两 个 模型 并 不 比 随 机 好 。 朴素 贝 叶 斯 
模型 和 决策 树 模型 的 性 能 稍微 好 些 ，AUC 分 别 是 0.58 和 0.65。 但 是 ， 在 二 分 类 问题 上 这 个 性 能 
并 不 是 非常 好 。 




















这 里 我 们 没有 讨论 多 类 别 分 类 问题 ,MLlib 提供 了 一 个 类 似 的 计算 性 能 的 类 
MulticlassMetrics， 其 中 提供 了 许多 常见 的 度量 方法 。 


6.5 ”改进 模型 性 能 以 及 参数 调 优 
到 底 哪里 出 错 了 呢 ?为 什么 我 们 的 模型 如 此 复杂 却 只 得 到 比 随机 稍 好 的 结果 ?我 们 的 模型 
哪里 存在 问题 ? 


想 想 看 ,我们 只 是 简单 地 把 原始 数据 送 进 了 模型 做 训练 。 事实 上 , 我 们 并 没有 把 所 有 数据 用 
在 模型 中 ， 只 是 用 了 其 中 易 用 的 数值 部 分 。 同 时 ,我 们 也 没有 对 这 些 数值 特征 做 太 多 分 析 。 
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6.5.1 ”特征 标准 化 


我 们 使 用 的 许多 模型 对 输入 数据 的 分 布 和 规模 有 着 一 些 固有 的 假设 , 其 中 最 常见 的 假设 形式 
是 特征 满足 正 态 分 布 。 下 面 我 们 进一步 研究 特征 是 如 何 分 布 的 。 

为 此 , 我 们 先 将 特征 向 量 用 RowMatrix 类 表示 成 MLlib 中 的 分 布 式 和 矩阵。 RowMatrix 是 一 
个 由 向 量 组 成 的 RDD， 其 中 每 个 向 量 是 分 布 式 矩 阵 的 一 行 。 

RowMatrix 类 中 有 一 些 方便 操作 抢 阵 的 方法 ,其 中 一 个 方法 可 以 计算 矩阵 每 列 的 统计 特性 ; 



































import org.apache.spark.mllib.linalg.distributed.RowMatrix 
val vectors = data.map(lp => lp.features) 

val matrix = new RowMatrix(vectors) 

val matrixSummary = matrix.computeColumnSummaryStatistics!() 


下 面 的 代码 可 以 输出 矩阵 每 列 的 均值 : 

println(matrixSummary .mean) 

输出 结果 : 
[0.41225805299526636,2.761823191986623,0.46823047328614004，... 


下 面 的 代码 输出 矩阵 每 列 的 最 小 值 : 





println(matrixSummary .min) 

输出 结果 : 
[0.0,0.0,0.0,0.0,0.0,0.0,0.0,-1.0,0.0,0.0,0.0,0.045564223,-1.0，... 
下 面 的 代码 输出 矩阵 每 列 的 最 大 值 : 

println (matrixSummary .max) 

输出 结果 : 
[0.999426,363.0,1.0,1.0,0.980392157,0.980392157,21.0,0.25,0.0,0.444444444, ... 
下 面 代码 输出 矩阵 每 列 的 方差 : 

println(matrixSummary .variance) 

输出 为 : 
[0.1097424416755897,74.30082476809638,0.04126316989120246，... 
下 面 代码 输出 矩阵 每 列 中 非 零 项 的 数目 : 


println(matrixSummary .numNonzeros) 
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输出 为 : 
[5053.0,7354.0,7172.0,6821.0,6160.0,5128.0,7350.0,1257.0,0.0，... 


computeColumnSummaryStatistics 方法 计算 特征 矩阵 每 列 的 不 同 统计 数据 ， 包括 均值 
利 方差 , 所 有 统计 值 按 每 列 一 项 的 方式 存储 在 一 个 向 量 中 在 我 们 的 例子 中 每 个 特征 对 应 一 项 )。 


观察 前 面 对 均 值 和 方差 的 输出 ,可 以 清晰 地 发 现 , 第 二 个 特征 的 方差 和 均值 比 其 他 的 都 要 高 
( 你 会 发 现 一 些 其 他 特征 也 有 类 似 的 结果 , 而 且 有 些 特征 更 加 极端 )。 因 为 我 们 的 数据 在 原始 形式 
下 ,所 以 确切 地 说 并 不 符合 标准 的 高 斯 分 布 。 为 了 使 数据 更 符合 模型 的 假设 ,可 以 对 每 个 特征 进 
行 标准 化 ,使 得 每 个 特征 是 0 均值 和 单位 标准 差 。 具体 做 法 是 对 每 个 特征 值 减 去 列 的 均值 ， 然 后 
除 以 列 的 标准 差 以 进行 缩放 : 







































































(x—1) /sqrt(variance) 


实际 上 ,对 于 数据 集中 每 个 特征 向 量 , 我 们 可 以 与 均值 向 量 按 项 依次 做 减法 ,然后 依次 按 项 
除 以 特征 的 标准 差 向 量 。 标 准 差 向 量 可 以 由 方差 向 量 的 每 项 求 平方 根 得 到 。 


正如 我 们 在 第 4 章 提 到 的 ， 可 以 使 用 Spark 的 standardscaler 中 的 方法 方便 地 完成 这 些 
操作 。 


standardSscaler 的 工作 方式 和 第 4 章 的 Normalizer 特征 有 很 多 类 似 的 地 方 。 为 了 说 清 
楚 , 我 们 传 入 两 个 参数 ,一 个 表示 是 否 从 数据 中 减 去 均值 ， 另 一 个 表示 是 否 应 用 标准 差 缩放 。 这 
样 使 得 stangardscaler 和 我 们 的 输入 向 量 相 符 。 最 后 ， 将 输入 向 量 传 到 转换 函数 ， 并 且 返 回 
归 一 化 的 向 量 。 具 体 实现 代码 如 下 。 我 们 使 用 map 函数 来 保留 数据 集 的 标签 : 
















































































import org.apache.spark.mllib.feature.StandardScaler 

val scaler = new StandardScaler (withMean = true, withStqd = true) .fit(vectors) 

val scaledData = data.map (lp => LabeledPoint (lp.label, 
scaler.transform(lp.features))) 


现在 我 们 的 数据 已 标准 化 。 观察 第 一 行 标准 化 前 和 标准 化 后 的 向 量 。 下面 输出 第 一 行 标 准 化 
前 的 特征 向 量 : 

printlin(data.first.features) 

结果 如 下 : 

[0.789131,2.055555556,0.676470588,0.205882353, 

下 面 输出 第 一 行 标 准 化 后 的 特征 向 量 : 

printlin(scaledData.first.features) 

结果 如 下 : 


[1.1376439023494747,-0.08193556218743517,1.025134766284205,-0.0558631837375738, 
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可 以 看 出 , 第 一 个 特征 已 经 应 用 标准 差 公式 被 转换 了 。 为 确认 这 一 点 ,可 以 让 第 一 个 特征 减 
去 其 均值 (之 前 计算 过 )， 然 后 除 以 标准 差 (方差 的 平方 根 ): 


println((0.789131 - 0.41225805299526636)/ math. 
sqrt (0.1097424416755897)) 


输出 结果 应 该 等 于 上 面向 量 的 第 一 个 元 素 : 
1.137647336497682 


现在 我 们 使 用 标准 化 的 数据 重新 训练 模型 。 这 里 只 训练 logistic 回归 模型 ( 因为 决策 树 和 朴 
素 贝 叶 斯 模型 不 受 特征 标准 化 的 影响 )， 并 说 明 特 征 标 准 化 的 影响 : 


val lrModelScaled = LogisticRegressionWithSGD.train(scaledData, numIterations) 
val lrTotalCorrectScaled = scaledData.map { point => 

if (lrModelScaled.predict (point.features) == point.label) 1 else 0 

} .sum 
val lrAccuracyScaled = lrTotalCorrectScaled / numData 
val lrPredictionsVsTrue = scaledData.map { point => 
(lrModelScaled.predict (point.features), point.label) 


























val lrMetricsScaled = new BinaryClassificationMetrics(lrPredictionsVsTrue) 


val lrPpr = lrMetricsScaled.areaUnderPR 
val lrRoc = lrMetricsScaled.areaUnderROC 
println(f"s{lrModelScaled.getClass.getSimpleName} \nAccuracy: 


$s{lrAccuracyScaled * 100}%2.4f%%\nArea under PR: S$S{1lrPr * 
100.0}%$2.4f%%\nArea under ROC: S${lrRoc * 100.0}%2.4f%%") 


计算 结果 如 下 : 


LogisticRegressionModel 

Accuracy: 62.0419% 

Area under PR: 72.7254% 

Area under ROC: 61.9663% 


从 结果 可 以 看 出 , 通过 简单 地 对 特征 标准 化 ， 就 提高 了 logistic 回归 的 准确 率 , 并 将 AUC 从 
随机 的 50% 提 升 到 62%。 



































6.5.2 ”其 他 特征 


我 们 已 经 看 到 , 需要 注意 对 特征 进行 标准 化 和 归 一 化 ,这 对 模型 性 能 可 能 有 重要 影响 。 在 这 
个 示例 中 ,我们 仅仅 使 用 了 部 分 特征 ， 却 完全 忽略 了 类 别 变量 和 样板 (boilerplate ) 变量 列 的 文 
本 内 容 。 


这 样 做 是 为 了 便于 介绍 。 现 在 我 们 再 来 评估 一 下 添加 其 他 特征 〈 比如 类 别 特征 ) 对 性 能 的 


园 人 
尿 Z 啊 o 


首先 ,我们 来 查看 所 有 类 别 ， 并 对 每 个 类 别 做 一 个 索引 的 上 映射， 这 里 索引 可 以 用 于 类 别 特 征 
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做 之 一 编码 。 











val categories = records.map(r => r(3)) .distinct.collect.zipWithIndex.toMap 
val numCategories = categories.size 
println(categories) 


my > 人 人、 
不 同 的 类 别 输出 如 下 : 
Map("weather" -> 0, "sports" -> 6, "unknown" -> 4, "computer internet" -> 
12, "?" -> 11, "culture politics" -> 3, "religion" -> 8, "recreation" -> 


2, "arts entertainment" -> 9, "health" -> 5, "law crime" -> 10, "gaming" 
-> 13, "business" -> 1, "science technology" -> 7) 


下 面 的 代码 会 计算 出 类 别 的 数目 : 
println (numCategories) 
输出 如 下 : 

14 


因此 ， 我 们 需要 创建 一 个 长 为 14 的 向 量 来 表示 类 别 特征 ， 然 后 根据 每 个 样本 的 所 属 类 别 索 
引 ， 对 相应 的 维度 赋值 为 1， 其 他 为 0。 我 们 假定 这 个 新 的 特征 向 量 和 其 他 的 数值 特征 向 量 一 样 。 














val dataCategories = records.map { r => 
val trimmed = r.map(_.replaceAll("\"", "")) 
val label = trimmed(r.size - 1).toInt 
val categoryIdx = categories(r(3)) 
val categoryFeatures = Array.ofDim[Doublel] (numCategories) 


CategoryFeatures (categoryIdx) = 1.0 
val otherFeatures = trimmed.slice(4, r.size - 1).map(d => if 
(Q == "?") 0.0 else d.toDouble) 


val features = categoryFeatures ++ otherFeatures 
LabeledPoint (label, Vectors.dense(features)) 
} 


println(dataCategories.first) 

你 应 该 可 以 看 到 如 下 输出 ， 其 中 第 一 部 分 是 一 个 长 为 14 的 向 量 ， 向 量 中 类 别 对 应 的 索引 那 
一 维 为 1 (e) 

LabeledPoint (0.0, [0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0, 

0.0,0.789131,2.055555556,0.676470588,0.205882353,0.047058824,0.023529412, 


0.443783175,0.0,0.0,0.09077381,0.0,0.245831182,0.003883495,1.0,1.0,24.0, 
0.0,5424.0,170.0,8.0,0.152941176,0.079129575]) 


同样 ， 因 为 我 们 的 原始 数据 没有 标准 化 , 所 以 在 训练 这 个 扩展 数据 集 之 前 ,应 该 使 用 同样 的 
standardSscaler 方法 对 其 进行 标准 化 转换 : 


























val scalerCats = new StandardScaler (withMean = true, withstd = true) 
.fit (dataCategories.map(lp => lp.features)) 

val scaledDataCats = dataCategories.map 
(lp => LabeledPoint (lp.label, scalerCats.transform(lp.features))) 
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可 以 使 用 如 下 代码 看 到 标准 化 之 前 的 特征 : 

println(dataCategories.first.features) 

输出 结果 如 下 : 
0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.789131,2.055555556 ... 
可 以 使 用 如 下 代码 看 到 标准 化 之 后 的 特征 : 

println(scaledDataCats.first.features) 

输出 如 下 : 


[-0.023261105535492967,2.720728254208072,-0.4464200056407091, 
-0.2205258360869135, 


虽然 原始 特征 是 黎 玖 的 (大 部 分 维度 是 0 )， 但 对 每 一 项 减 去 均值 之 后 ， 将 
得 到 一 个 非 稀 玖 (稠密 ) 的 特征 向 量 表示 ， 如 上 面 的 例子 所 示 。 

数据 规模 比较 小 的 时 候 , 稀 芯 的 特征 不 会 产生 问题 , 但 实践 中 往往 大 规模 数 
据 是 非常 稀 跤 的， 具有 许多 特征 ( 比如 在 线 广告 和 文本 分 类 )。 此 时 ， 不 建议 丢 
失 数 据 的 稀 玖 性 ， 因 为 相应 的 稠密 表示 所 需要 的 内 存 和 计算 量 将 呈 爆 炸 性 增长 。 
这 时 我 们 可 以 将 StandardScaler 的 withMean 设置 为 false 来 避免 这 个 问题 。 


现在 ， 可 以 用 扩展 后 的 特征 来 训练 新 的 logistic 回归 模型 了 ， 然 后 再 评估 其 性 能 : 








val lrModelScaledCats = LogisticRegressionWithSGD.train(scaledqDataCats， 
numIterations) 

val lrTotalCorrectScaledCats = scaledDataCats.map { point => 

if (lrModelScaledCats.predict (point.features) == point.label) 1 else 0 
} .sum 
val lrAccuracyScaledCats = lrTotalCorrectScaledCats / numData 
val lrPpredictionsVsTrueCats = scaledDataCats.map { point => 
(lrModelScaledCats.predict (point.features), point.label) 


val lrMetricsScaledCats = new BinaryClassificationMetrics (lrPredictionsVsTrueCats) 
val lrPprCats = lrMetricsScaledCats.areaUnderPR 

val lrRocCats = lrMetricsScaledCats.areaUnderROC 
println(f"s{lrModelScaledCats.getClass.getSimpleName} \nAccuracy: 
$s{lrAccuracyScaledCats * 100}%2.4f%%\nArea under PR: S${lrPprCats * 
100.0}%2.4f%%\nArea under ROC: S${lrRocCats * 100.0}%2.4f%%") 


你 应 该 可 以 看 到 如 下 的 输出 : 








LogisticRegressionModel 

Accuracy: 66.5720% 

Area under PR: 75.7964% 

Area under ROC: 66.5483% 


通过 对 数据 的 特征 进行 标准 化 ， 模 型 准确 率 得 到 提升 ， AUC 也 从 50% 提 高 到 62%。 之 后 ， 
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通过 添加 类 别 特征 ， 模 型 性 能 进一步 提升 到 66% ( 其 中 新 添加 的 特征 也 做 了 标准 化 操作 )。 








竞赛 中 性 能 最 好 的 模型 的 AUC 为 0.88906( https:/www.kaggle.com/c/stumbleupon/ 


leaderboard )。 
另 一 个 性 能 几乎 差不多 高 的 在 这 里 : https://www.kaggle.com/c/stumbleupon/ 
discussion/5680。 
和 需要 指出 的 是 ， 有 些 特征 我 们 仍然 没有 用 ， 特 别 是 样板 变量 中 的 文本 特征 。 


竞赛 中 性 能 突出 的 模型 主要 使 用 了 样板 特征 以 及 基于 文本 内 容 的 特征 来 提升 性 
能 。 从 前 面 的 实验 可 以 看 出 , 添加 了 类 别 特征 来 提升 性 能 之 后 ,大 部 分 变量 对 于 
预测 都 是 没有 用 的 ， 但 是 文本 内 容 的 预测 能 力 很 强 。 

通过 学 习 在 比赛 中 获得 最 好 性 能 的 方法 , 可 以 得 到 一 些 启 发 ,比如 特征 提取 和 特 
征 工程 对 模型 性 能 提升 很 重要 。 


6.5.3 ”使 用 正确 的 数据 格式 


模型 性 能 的 另外 一 个 关键 部 分 是 对 每 个 模型 使 用 正确 的 数据 格式 。 前 面 对 数 值 向 量 应 用 朴素 
贝 叶 斯 模型 得 到 了 非常 差 的 结果 ， 这 难道 是 模型 自身 的 缺陷 ? 


在 这 里 , 我们 知道 MLlib 实现 了 多 项 式 模型 ， 并 且 该 模型 可 以 处 理 计数 形式 的 数据 。 这 包括 
二 元 表示 的 类 别 特征 〈 比如 前 面 提 到 的 之 一 表示 ) 或 者 频率 数据 ( 比如 一 个 文档 中 单词 出 现 的 
频率 )。 我 们 开始 时 使 用 的 数值 特征 并 不 符合 假定 的 输入 分 布 , 所 以 模型 性 能 不 好 也 在 意料 之 中 。 


为 了 更 好 地 说 明 ,我 们 仅仅 使 用 类 别 特征 , 而 大 之 一 编码 的 类 别 特征 更 符合 朴素 贝 叶 斯 模型 。 
我 们 用 如 下 代码 构建 数据 集 : 


val dataNB = records.map { r => 
val trimmed = r.map(_.replaceAll("\"", "")) 
val label = trimmed(r.size - 1).toInt 
val categoryIdx = categories(r(3)) 
val categoryFeatures = Array.ofDim[Doublel] (numCategories) 
categoryFeatures (categoryIdx) = 1.0 
LabeledPoint (label, Vectors.dense(categoryFeatures)) 


} 
接 下 来 ,我 们 重新 训练 朴素 贝 叶 斯 模型 并 对 它 的 性 能 进行 评估 : 


val nbModelCats = NaiveBayes.train (dataNB) 

val nbTotalCorrectCats = dataNB.map { point => 
if (nbModelCats.predict (point.features) == point.label) 1 else 0 

} .Sum 

val nbAccuracyCats = nbTotalCorrectCats / numData 

val nbPpredictionsVsTrueCats = dataNB.map { point => 
(nbModelCats.predict (point.features), point.1label) 

} 
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val nbMetricsCats = new BinaryClassificationMetrics (nbPredqictionsVsTrueCats) 
val nbPrCats = nbMetricsCats.areaUnderPR 

val nbRocCats = nbMetricsCats.areaUnderROC 
println(f"s{nbModelCats.getClass.getSimpleName} \nAccuracy: 

$s{nbAccuracyCats * 100}%2.4f%%$\nArea under PR: S${nbPprCats * 
100.0}%2.4f%%\nArea under ROC: S${nbRocCats * 100.0}%2.4f%%") 


计算 结果 如 下 : 


NaiveBayesModel 
Accuracy: 60.9601% 

Area under PR: 74.0522% 
Area under ROC: 60.5138% 


可 见 ， 使 用 格式 正确 的 输入 数据 后 ， 朴 素 贝 叶 斯 模型 的 性 能 从 58% 提 高 到 了 60%。 

















6.5.4 ”模型 参数 调 优 


前 几 节 展示 了 模型 性 能 的 影响 因素 : 特征 提取 、 特 征 选择 、 输 入 数据 的 格式 和 模型 对 数据 分 
布 的 假设 。 但 是 到 目前 为 止 , 我 们 对 模型 参数 的 讨论 只 是 一 笔 带 过 ,而 实际 上 它 对 于 模型 性 能 影 
响 很 大 。 


MLlib 默认 的 train 方法 对 每 个 模型 的 参数 都 使 用 默认 值 。 接 下 来 让 我 们 深入 了 解 一 下 这 些 
1. 线性 模型 


logistic 回归 和 SVM 模型 有 相同 的 参数 ， 原 因 是 它们 都 使 用 随机 梯度 下 降 (SGD ) 作为 基础 
优化 技术 。 不 同 点 在 于 二 者 采用 的 损失 函数 不 同 。MLlib 中 关于 logistic 回归 类 的 定义 如 下 : 


class LogisticRegressionNWithSGD Private ( 
private var stepSize: Douple， 
private Var numIiterations: Int, 
private var regParam: Double, 
private Var miniBatchFraction: Double) 
extends GeneralizedLinearAlgorithm[LogisticRegressionModel] 
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可 以 看 到 ， numIterations、 regParam 和 miniBatchFraction 能 通过 参数 


传递 到 构造 函数 中 。 这 些 变 量 中 除了 regParam 以 外 都 和 基本 的 优化 技术 相关 。 


下 面 是 logistic 回归 实例 化 的 代码 ， 代码 初始 化 了 Gradient、 Updater 和 Optimizer, 以 
及 optimizer 相关 的 参数 ( 这 里 是 GradientDescent ): 
































private val gradient = new LogisticGradient() 

private val updater = new SimpleUpdater () 

override val optimizer = new GradientDescent (gradient, updater) 
.SetStepSize (stepSize) 
.SetNumIterations (numIterations) 
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.SetRegParam (regParam) 
.SetMiniBatchFraction (miniBatchFraction) 


LogisticGradient 建立 了 定义 logistic 回归 模型 的 logistic 损失 函数 。 


对 优化 技巧 的 详细 描述 已 经 超出 本 书 的 范围 ,MLlib 为 线性 模型 提供 了 两 种 
优化 技术 : SGD 和 L-BFGS。L-BFGS 通常 来 说 更 精确 ， 要 调 的 参数 较 少 。 
SGD 是 所 有 模型 默认 的 优化 技术 ， 而 L-BGFS 当前 只 能 通过 
入 LogisticRegressionWithLBFGS 直接 用 于 logistic 回归 。 你 可 以 动手 实现 并 
比较 一 下 二 者 的 不 同 。 更 多 细节 可 以 访问 http://spark.apache.org/docs/latest/mllib- 


optimization.html。 


为 了 研究 其 他 参数 的 影响 ,我 们 需要 创建 一 个 辅助 函数 ， 在 给 定 参 数 之 后 训练 logistic 回归 
模型 。 首 先 需 要 引入 必要 的 类 : 


import org.apache.spar 
import org.apache.spar 
import org.apache.spar 
import org.apache.spar 
import org.apache.spar 
import org.apache.spar 


然后 ， 定 义 辅助 函数 ， 根 据 给 定 输入 训练 模型 . 


def trainWithParams (input: RDD[LabeledPoint], regParam: Double, 
numIterations: Int, updater: Updater, stepSize: Double) = { 
val lr = new LogisticRegressionWithSGD 
lr.optimizer.setNumIterations (numIterations). 
setUpdater (updater) .setRegParam(regParam) .setStepSize(stepSize) 
lr.run(input) 


} 
最 后 ， 定 义 第 二 个 辅助 函数 ， 并 根据 输入 数据 和 分 类 模型 ， 计 算 相 关 的 AUC: 


def createMetrics(label: String, data: RDD[LabeledPoint], model: 
ClassificationModel) = { 
val scoreAndLabels = data.map { point => 
(model .predict (point.features), point.label) 
} 
val metrics = new BinaryClassificationMetrics(scoreAndLabels) 
(label, metrics.areaUnderROC) 


} 
为 了 加 快 多 次 模型 训练 的 速度 ， 可 以 缓存 标准 化 的 数据 ( 包括 类 别 信息 ) 


scaledDataCats.cache 


(1) 迭代 
大 多 数 机 器 学 习 的 方法 需要 迭代 训练 , 并 且 经 过 一 定 次 数 的 迭代 之 后 收敛 到 某 个 解 ( 即 最 小 





.rdd.RDD 

.mllib.optimization.Updater 
.mllib.optimization.SimpleUpdater 
.mllib.optimization.LlUpdater 
.mllib.optimization.SquaredL2Updater 
.mllib.classification.ClassificationModel 
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化 损失 函数 时 的 最 优 权 重 向 量 )。SGD 收敛 到 合适 的 解 需要 迭代 的 次 数 相对 较 少 ， 但 是 要 进一步 
提升 性 能 则 需要 更 多 次 迭代 。 为 方便 解释 ， 这 里 设置 不 同 的 迭代 次 数 numIterations， 然 后 比 
较 AUC 结果 : 


val iterResults = Seq(1l, 5, 10, 50) .map { param => 

val model = trainWithParams (scaledDataCats, 0.0, param, new 
SimpleUpdater, 1.0) 

createMetrics(s"S$param iterations", scaledDataCats, model) 
} 
iterResults.foreach { case (param, auc) => println(f"s$param, AUC = 
$s{auc * 100}%2.2f%%") } 


应 该 可 以 看 到 如 下 的 输出 : 


1 iterations, AUC = 64.97% 
5 iterations, AUC = 66.62% 
10 iterations, AUC 66.55% 


50 iterations, AUC : 66.81% 
我 们 可 以 发 现 ， 一 旦 完成 特定 次 数 的 迭代 ， 再 增 大 迭代 次 数 对 结果 的 影响 较 小 。 
(2) 步 长 


在 SGD 中 ， 在 训练 每 个 样本 并 更 新 模型 的 权重 向 量 时 ， 步 长 用 来 控制 算法 在 最 陡 的 梯度 方 
向 上 应 该 前 进 多 远 。 较 大 的 步 长 收敛 较 快 , 但 是 步 长 太 大 可 能 导致 收敛 到 局 部 最 优 解 。 学 习 速 
率 确定 了 达到 ( 本 地 或 全 局 ) 最 小 值 过 程 中 每 步 的 大 小 。 这 个 过 程 可 理解 为 ， 在 目标 函数 确定 的 
表面 ， 沿 着 表面 的 斜率 所 指向 的 方向 下 降 ， 直 到 到 达 谷 底 。 


下 面 计算 不 同步 长 的 影响 : 


val stepResults = Seq(0.001, 0.01, 0.1, 1.0, 10.0) .map { param => 

val model = trainWithParams (scaledDataCats, 0.0, numIterations, new 
SimpleUpdater, param) 

createMetrics(s"$param step size", scaledDataCats, model) 
} 
stepResults.foreach { case (param, auc) => println(f"s$param, AUC = 
$s{auc * 100}%2.2f%%") } 


得 到 的 结果 如 下 。 可 以 看 出 步 长 增长 过 大 对 性 能 有 负面 影响 。 


0.001 step size, AUC = 64.95% 
0.01 step size, AUC = 65.00% 
0.1 step size, AUC 5.52% 
1.0 step size, AUC 6.55% 
10.0 step size, AUC = 61.92% 


(3) 正则 化 
前 面 logistic 回归 的 代码 中 简单 提 及 了 Updater 类 , 该 类 在 MLlib 中 实现 了 正则 化 。 正 则 化 
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通过 限制 模型 的 复杂 度 避 免 模型 在 训练 数据 中 过 拟 合 。 其 具体 做 法 是 在 损失 函数 中 添加 一 个 关于 
模型 权重 向 量 的 函数 ， 从 而 会 使 损失 增加 。 


正则 化 在 现实 中 几乎 是 必需 的 ， 当 特征 维度 相对 于 训练 样本 数量 非常 高 时 ( 此 时 需要 学 习 的 
变量 权重 的 数量 也 非常 大 ) 尤其 重要 。 


当 正则 化 不 存在 或 者 非常 低 时 , 模型 容易 过 拟 合 。 大 多 数 模 型 在 没有 正则 化 的 情况 下 会 在 训 
练 数据 上 过 拟 合 。 过 拟 合 也 是 在 模型 拟 合 中 使 用 交叉 验证 技术 的 关键 原因 , 交叉 验证 会 在 后 面 详 
细 介 绍 。 






































继续 之 前 , 我 们 先 定义 下 什么 是 过 拟 合 和 从 拟 合 。 过 拟 合 指 模型 过 于 贴 合 数据 中 的 细节 和 噪 
声 , 使 得 其 在 新 数据 上 的 表现 欠 佳 。 模 型 不 应 该 过 于 贴 合 训练 数据 集 。 而 当 欠 拟 合 时 ,模型 在 训 
练 数据 以 及 新 数据 上 的 表现 都 从 佳 。 

相反 , 虽然 正则 化 可 以 得 到 一 个 简单 模型 , 但 正则 化 太 高 可 能 导致 模型 从 拟 合 ,从 而 使 模型 
性 能 变 得 很 糟糕 。 


MLlib 中 可 用 的 正则 化 形式 有 如 下 几 个 。 





I 
































口 SimpleUpdater: 相当 于 没有 正则 化 ， 是 logistic 回归 的 默认 配置 。 

口 squaregdL2Updater: 这 个 正则 项 基于 权重 向 量 的 L2 正则 化 ， 是 SVM 模型 的 默认 值 。 
口 LiUpdater: 这 个 正则 项 基于 权重 向 量 的 L1 正则 化 ,会 导致 得 到 一 个 稀 琉 的 权重 向 量 ( 不 
重要 的 权重 的 值 接近 0 )。 

















正则 化 及 其 优化 是 一 个 广泛 和 重要 的 研究 领域 ， 下 面 给 出 一 些 相关 的 资料 。 

口 通用 的 正则 化 综述 : https://en.wikipedia.org/wiki/Regularization (mathe- matics)。 
口 L2 正则 化 : https://en.wikipedia.org/wiki/Tikhonov_regularization。 

各 口 过 拟 合 和 欠 拟 合 : https://en.wikipedia.org/wiki/Overfitting。 

关于 过 拟 合 以 及 L1 和 L2 正则 化 比较 的 详细 介绍 : http://citeseerx.ist.psu.edu/ 

viewdoc/download?doi=10.1.1.92.9860&rep=rep1l&type=pdf, 


下 面 使 用 squaredL2Updater 人 研究 正则 化 参数 的 影响 : 





val regResults = Seq(0.001, 0.01, 0.1, 1.0, 10.0) .map { param => 
val model = trainWithParams (scaledDataCats, param, numIterations, 
new SquaredL2Updater, 1.0) 
createMetrics(s"$param L2 regularization parameter", 
scaledDataCats, model) 
} 
regResults.foreach { case (param, auc) => println(f"s$param, AUC = 
$s{auc * 100}%2.2f%%") } 


输出 结果 如 下 : 
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0.001 L2 regularization parameter, AUC = 66.55% 
0.01 L2 regularization parameter, AUC = 66.55% 

0.1 L2 regularization parameter, AUC 
1.0 L2 regularization parameter, AUC 
10.0 L2 regularization parameter, AUC = 35.33% 


可 以 看 出 , 低 等 级 的 正则 化 对 模型 性 能 的 影响 不 大 。 然 而 , 增 大 正则 化 时 ， 欠 拟 合 会 导致 较 
低 的 模型 性 能 。 








你 会 发 现 使 用 Ll 正则 项 也 会 得 到 类 似 的 结果 。 可 以 试 试 使 用 上 述 相 同 的 评 
估 方 式 ， 计算 不 同 Ll 正则 化 参数 下 AUC 的 性 能 。 


2. 决策 树 


决策 树 模型 在 一 开始 使 用 原始 数据 做 训练 时 获得 了 最 好 的 性 能 。 当 时 设置 了 参数 maxDepth 
来 控制 决策 树 的 最 大 深度 ， 进 而 控制 模型 的 复杂 度 。 而 树 的 深度 越 大 ， 得 到 的 模型 越 复杂 , 但 能 
够 更 好 地 拟 合 数据 。 




















对 于 分 类 问题 ， 我 们 需要 为 决策 树 模型 选择 以 下 两 种 不 纯度 度量 方式 : 基尼 不 纯度 或 者 炉 。 
@ 树 的 深度 和 不 纯度 调 优 








下 面 会 用 和 logistic 回归 模型 中 类 似 的 方式 来 说 明 树 的 深度 的 影响 。 
首先 在 Spark shell 中 创建 一 个 辅助 函数: 


import org.apache.spark.mllib.tree.impurity.Impurity 
import org.apache.spark.mllib.tree.impurity.Entropy 
import org.apache.spark.mllib.tree.impurity.Gini 


def trainDTWithParams (input: RDD[LabeledPoint], maxDepth: Int, 
impurity: Impurity) = { 
DecisionTree.train(input, Algo.Classification, impurity, maxDepth) 


} 





接着 ,准备 计算 不 同 树 深度 配置 下 的 AUC。 因 为 不 需要 对 数据 进行 标准 化 ， 所 以 我 们 将 使 
用 样 例 中 原始 的 数据 。 








i 注意 决策 树 通常 不 需要 特征 的 标准 化 和 归 一 化 ,也 不 要 求 将 类 型 特征 进行 二 
元 编码 。 




















首先 ， 通 过 使 用 雯 不 纯度 并 改变 树 的 深度 训练 模型 : 


val dtResultsEntropy = Seq(l1l, 2, 3, 4, 5, 10, 20) .map { param => 
val model = trainDTWithParams (data, param, Entropy) 
val scoreAndLabels = data.map { point => 
val score = model.predict (point.features) 
(If (Score > 0.5) 1.0 else 0.0, point.1label) 


208 第 6 章 Spark 构建 分 类 模型 





val metrics = new BinaryClassificationMetrics(scoreAndLabels) 
(s"Sparam tree depth", metrics.areaUnderROC) 
} 
dtResultsEntropy.foreach { case (param, auc) => println(f"s$sparam, 
AUC = S${auc * 100}%2.2f%%") } 


计算 结果 如 下 : 





1 tree depth, AUC = 59.33% 
2 tree depth, AUC = 61.68% 
3 tree depth, AUC = 62.61% 
4 tree depth, AUC = 63.63% 
5 tree depth, AUC = 64.88% 
10 tree depth, AUC = 76.26% 
20 tree depth, AUC = 98.45% 





接 下 来 , 我 们 采用 基尼 不 纯度 进行 类 似 的 计算 (代码 比较 类 似 ， 所 以 这 里 不 给 出 具体 代码 实 





现 , 但 可 以 在 代码 库 中 找到 )。 计 算 结 果 应 该 和 下 面 类 似 : 
1 tree depth, AUC = 59.33% 
2 tree depth, AUC = 61.68% 
3 tree depth, AUC = 62.61% 
4 tree depth, AUC = 63.63% 
5 tree depth, AUC = 64.89% 
10 tree depth, AUC = 78.37% 
20 tree depth, AUC = 98.87% 








从 结果 中 可 以 看 出 ,增加 树 的 深度 可 以 得 到 更 精确 的 模型 ( 这 和 预期 一 致 ， 因 为 模型 在 更 大 
的 树 深度 下 会 变 得 更 加 复杂 )。 然 而 树 的 深度 越 大 ， 模 型 对 训练 数据 过 拟 合 的 程度 越 严重 。 模 型 
的 泛 化 能 力 随 树 深度 的 增加 而 降低 。 这 里 泛 化 能 力 指 模型 在 未 接触 过 的 数据 上 的 表现 。 


另外 ， 两 种 不 纯度 方法 对 性 能 的 影响 差异 较 小 。 
3. 朴素 贝 叶 斯 模型 


最 后 ， 让 我 们 看 看 1ambda 参数 对 朴素 贝 叶 斯 模型 的 影响 。 该 参数 可 以 控制 相 加 式 平滑 
( additive smoothing )， 解 决 数据 中 某 个 类 别 和 某 个 特征 值 的 组 合 没 有 同时 出 现 的 问题 。 


























i 更 多 关于 相 加 式 平滑 的 内 容 请 见 : https://en.wikipedia.org/wiki/Additive_smoothing。 





和 之 前 的 做 法 一 样 , 首先 需要 创建 一 个 方便 调用 的 辅助 函数 ， 用 来 训练 不 同 1ampqa 级 别 下 
的 模型 


def trainNBWithParams (input: RDD[LabeledPoint], lambda: Double) = { 
val nb = new NaiveBayes 
nb.setLambda (lambda) 
nb.run (input) 
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} 
val nbResults = Seq(0.001, 0.01, 0.1, 1.0, 10.0) .map { param => 
val model = trainNBWithParams (dataNB, param) 
val scoreAndLabels = dataNB.map { point => 
(model .predict (point.features), point.label) 
} 
val metrics = new BinaryClassificationMetrics(scoreAndLabels) 
(s"$Sparam lambda", metrics.areaUnderROC) 
} 
nbResults.foreach { case (param, auc) => println(f"$param, AUC = 
$s{auc * 100}%2.2f%%") 
} 


训练 的 结果 如 下 : 


0.001 lambda, AUC = 60.51% 
0.01 lambda, AUC = 60.51% 
0.1 lambda, AUC = 60.51% 
1.0 lambda, AUC = 60.51% 
10.0 lambda, AUC = 60.51% 


从 结果 中 可 以 看 出 1ambga 的 值 对 性 能 没有 影响 , 由 此 可 见 数据 中 某 个 特征 和 某 个 类 别 的 组 
合 不 存在 时 不 是 问题 。 


4. 交叉 验证 


到 目前 为 止 , 本 书 只 是 简单 提 及 了 交叉 验证 和 训练 样本 外 的 预测 。 交 叉 验 证 是 实际 机 器 学 习 
中 的 关键 部 分 ， 同 时 在 多 模型 选择 和 参数 调 优 中 占有 中 心地 位 。 


交叉 验证 的 目的 是 测试 模型 在 未 知 数据 上 的 性 能 。 不 知道 训练 的 模型 在 预测 新 数据 时 的 性 
能 ， 而 直接 放 在 实际 数据 ( 比如 运行 的 系统 ) 中 进行 评估 是 很 危险 的 做 法 。 正 如 前 面 提 到 的 正则 
化 实验 中 , 我 们 的 模型 可 能 在 训练 数据 中 已 经 过 拟 合 了 , 于 是 在 未 被 训练 的 新 数据 中 预测 性 能 会 
很 差 。 


交叉 验证 让 我 们 使 用 一 部 分 数据 训练 模型 , 将 男 外 一 部 分 用 来 评估 模型 性 能 。 如 果 模 型 在 训 
练 以 外 的 新 数据 中 进行 了 测试 ， 我 们 便 可 以 由 此 估计 模型 对 新 数据 的 泛 化 能 力 。 


我 们 把 数据 划分 为 训练 数据 和 测试 数据 ,实现 一 个 简单 的 交叉 验证 过 程 。 我们 将 数据 分 为 两 
个 不 重 赤 的 数据 集 。 第 一 个 数据 集 用 来 训练 ， 称 为 训练 集 ( training set )。 第 二 个 数据 集 称 为 测试 
集 (test set ) 或 者 保留 集 ( hold-out set )， 用 来 评估 模型 在 给 定 评测 方法 下 的 性 能 。 实 际 中 常用 的 
划分 方法 包括 : 50/50、60/40、80/20 等 ， 只 要 训练 模型 的 数据 量 不 太 小 就 行 ( 通常， 实际 使 用 至 
少 50% 的 数据 用 于 训练 )。 

在 很 多 情况 下 ,会 创建 3 个 数据 集 : 训练 集 、 评 估 集 ( 类似 上 述 测 试 集 ， 用 于 模型 参数 的 调 
优 ， 比 如 lambda 和 步 长 ) 和 测试 集 (不 用 于 模型 的 训练 和 参数 调 优 ， 只 用 于 估计 模型 在 新 数据 
中 的 性 能 )。 
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本 书 只 简单 地 将 数据 分 为 训练 集 和 测试 集 , 但 实际 中 存在 很 多 更 加 复杂 的 交 
又 验证 技术 。 
一 种 流行 的 方法 是 K- 折 县 交叉 验证 ( K-fold cross-validation ), 其 中 数据 集 被 
分 成 玉 个 不 重合 的 部 分 。 用 数据 中 的 K-1 份 训练 模型 ， 剩 下 一 部 分 用 于 测试 模 
0 型 。 如 此 重复 及 次 ， 并 将 所 得 结果 的 平均 值 作为 交叉 验证 的 得 分 。 而 只 分 训练 
集 和 测试 集 的 方法 可 以 看 作 2- 折 县 交 又 验证 。 
其 他 方法 包括 “ 留 一 交叉 验证 ”和 “随机 采样 ”"。 更 多 资料 详 见 https://en. 


wikipedia.org/wiki/Cross-validation (statistics)。 


首先 将 数据 集 分 成 60% 的 训练 集 和 40% 的 测试 集 ( 为 了 方便 解释 , 这 里 会 在 代码 中 使 用 一 个 
固定 的 随机 种 子 123 来 保证 每 次 实验 能 得 到 相同 的 结果 ): 


val trainTestSplit = scaledDataCats.randomSplit (Array (0.6, 0.4), 123) 
val train = trainTestSplit (0) 
val test = trainTestSplit(1) 


接 下 来 在 不 同 的 正则 化 参数 下 评估 模型 的 性 能 ( 这 里 依然 使 用 AUC )。 注 意 ,， 我 们 在 正则 化 
参数 之 间 设 置 了 很 小 的 步 长 ， 为 的 是 更 好 地 解释 AUC 在 各 个 正则 化 参数 下 的 变化 ， 同 时 这 个 例 
子 的 AUC 的 变化 也 很 小 : 


val regResultsTest = Seq(0.0, 0.001, 0.0025, 0.005, 0.01) .map { param => 
val model = trainNithParams (train, param, numIterations, new 
SquaredL2Updater, 1.0) 
createMetrics(s"$Sparam L2 regularization parameter", test, model) 
} 
regResultsTest.foreach { case (param, auc) => println(f"s$param, 
AUC = S${auc * 100}%2.6f%%") 





























} 
上 述 代码 计算 了 在 测试 集 上 的 模型 性 能 ， 具 体 结果 如 下 : 














.0 L2 regularization parameter, AUC = 66.480874% 
.001 L2 regularization parameter, AUC = 66.480874% 
.0025 L2 regularization parameter, AUC = 66.515027% 
.005 L2 regularization parameter, AUC = 66.515027% 
.01 L2 regularization parameter, AUC = 66.549180% 


接着 , 让 我 们 比较 一 下 在 训练 集 上 的 模型 性 能 ( 类 似 之 前 对 所 有 数据 进行 训练 和 测试 时 所 做 
的 )。 因 为 代码 类 似 ， 所 以 这 里 就 不 具体 给 出 代码 了 可 以 在 代码 库 中 找到 ); 


站 








.0 L2 regularization parameter, AUC = 66.260311% 
.001 L2 regularization parameter, AUC = 66.260311% 
.0025 L2 regularization parameter, AUC = 66.260311% 
.005 L2 regularization parameter, AUC = 66.238294% 
.01 L2 regularization parameter, AUC = 66.238294% 


口 口 口 口 口 
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从 上 面 的 结果 可 以 看 出 ， 当 我 们 的 训练 集 和 测试 集 相 同时 , 通常 在 正则 化 参数 比较 小 的 情况 
下 可 以 得 到 最 高 的 性 能 。 这 是 因为 我 们 的 模型 在 较 低 的 正则 化 下 学 习 了 所 有 的 数据 , 即 可 以 在 过 
拟 合 的 情况 下 达到 更 高 的 性 能 。 
































相反 ， 当 训练 集 和 测试 集 不 同时 ， 通 常 较 高 的 正则 化 可 以 得 到 较 高 的 测试 性 能 。 





在 交叉 验证 中 , 我 们 一 般 选 择 在 测试 集中 性 能 表现 最 好 的 参数 设置 ( 包括 正则 化 以 及 步 长 等 
各 种 各 样 的 参数 )。 然 后 用 这 些 参数 在 所 有 的 数据 集 上 重新 训练 模型 ， 最 后 用 于 新 数据 集 的 预测 。 





章 介绍 的 方法 将 ratings 数据 集 划 分 成 训练 集 和 测试 集 。 然 后 在 训练 集中 测试 


第 $ 章 使 用 Spark 构建 推荐 系统 时 并 没有 讨论 交叉 验证 。 但 是 你 也 可 以 用 本 
0 不 同 的 参数 设置 ， 同 时 在 测试 集 上 评估 MSE 和 MAP 的 性 能 。 建 议 尝试 一 下 ! 


6.6 小结 





本 章 介绍 了 Spark MLlib 中 提供 的 各 种 分 类 模型 ， 讨 论 了 如 何在 给 定 输入 数据 中 训练 模型 ， 
以 及 在 标准 评测 指标 下 评估 模型 的 性 能 。 还 讨论 了 如 何 用 之 前 介绍 的 技术 来 处 理 特征 以 得 到 更 好 
的 性 能 。 最 后 讨论 了 正确 的 数据 格式 和 数据 分 布 、 更 多 的 训练 数据 、 模 型 参数 调 优 以 及 交叉 验证 6 
对 模型 性 能 的 影响 。 











下 一 章 将 使 用 类 似 的 方法 研究 MLlib 的 回归 模型 。 


Spark 构建 回归 模型 














本 章 将 基于 第 6 章 的 内 容 继续 讨论 回归 模型 。 分 类 模型 处 理 表示 类 别 的 离散 变量 ， 而 回归 模 
型 则 处 理 可 以 取 任 意 实 数 的 目标 变量 。 但 是 二 者 基本 的 原则 类 似 ， 都 是 通过 确定 一 个 模型 ， 将 答 
入 特征 映射 到 预测 的 目标 变量 。 回 归 模 型 和 分 类 模型 都 是 监督 学 习 的 一 种 形式 。 


回归 模型 可 以 用 来 预测 任何 目标 变量 ， 下 面 是 几 个 例子 。 


口 预测 股票 收益 和 其 他 经 济 相关 的 因素 。 

口 预测 贷款 违约 造成 的 损失 〈 可 以 和 分 类 模型 相 结合 ， 分 类 模型 预测 违约 概率 ， 回 归 模 型 
预测 违约 损失 )。 

口 推荐 系统 (第 5 章 中 的 交 蔡 最 小 二 乘 分 解 模 型 在 每 次 迭代 时 都 使 用 了 线性 回归 )。 

口 基于 用 户 的 行为 和 消费 模式 ， 预 测 顾客 对 于 零售 、 移 动 或 者 其 他 商业 形态 的 存在 价值 。 
接 下 来 的 几 节 ， 我 们 将 : 

口 介绍 MLlib 中 的 各 种 回归 模型 ; 

口 讨论 回归 模型 的 特征 提取 和 目标 变量 的 变换 ; 

口 使 用 MLlib 训练 回归 模型 ; 

口 介绍 如 何 用 训练 好 的 模型 做 预测 ; 

口 使 用 交叉 验证 研究 设置 不 同 的 参数 对 性 能 的 影响 。 


7.1 回归 模型 的 种 类 
线性 回归 模型 的 核心 思想 是 对 样本 的 预测 结果 ( 通常 称 为 目标 变量 或 者 因 变 量 ) 进行 建 模 ， 
即 对 输入 变量 ( 特征 或 者 自 变量 ) 应 用 简单 的 线性 预测 函数 ， 
y= f (wx) 


其 中 , y 是 目标 变量 ,，w 是 参数 向 量 ( 权重 向 量 ), x 是 输入 特征 向 量 。(w x) 是 关于 权重 向 量 w 
和 特征 向 量 x 的 线性 预测 器 ( 又 称 向 量 点 积 )。 对 这 个 线性 预测 费 ， 我 们 应 用 了 一 个 函数 了 (又 称 
连接 函数 )。 
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实际 上 ， 线 性 模型 既 可 用 于 分 类 也 可 用 于 回归 ， 两 者 只 是 所 用 的 连接 函数 不 同 。 标 准 线性 回归 
会 使 用 对 等 连接 函数 ( 即 直接 表达 为 = fw'x ), 而 二 分 类 会 使 用 其 他 之 前 已 讨论 过 的 连接 函数 。 


Spark MLlib 提供 了 多 种 回归 模型 : 


D 线性 回归 

口 广义 线性 回归 

口 logistic 回归 

口 决策 树 

口 随机 森林 回归 

D 梯度 提升 树 

口 生存 回归 (survival regression ) 
口 保 序 回归 (isotonic regression ) 
口 岭 回 归 


回归 模型 定义 一 个 因 变 量 与 一 个 或 多 个 自 变量 之 间 的 关系 。 它 旨 在 构建 能 最 好 地 拟 合 特征 或 
自 变 量 值 的 模型 。 

线性 回归 模型 与 分 类 模型 (如 SVM 和 1ogistic 回归 ) 不 同 ， 它 预测 的 是 广义 上 的 因 变 量 
而 非 具 体 的 类 别 。 

线性 回归 模型 本 质 上 和 对 应 的 线性 分 类 模型 一 样 , 唯一 的 区 别 是 线性 回归 模型 使 用 的 损失 函 
数 、 相 关连 接 函 数 和 决策 函数 不 同 。MLlib 提供 了 标准 的 最 小 二 乘 回 归 模 型 ( 其 他 广义 线性 回归 
模型 也 正在 计划 当中 )。 
























































7.1.1 最 小 二 乘 回归 


第 6 童 将 各 种 各 样 的 损失 函数 应 用 于 广义 线性 模型 。 最 小 二 乘 回归 的 损失 函数 是 平方 损失 ， 
定义 如 下 : 
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上 面 的 公式 和 分 类 模型 的 定义 类 似 ， 其 中 是 目标 变量 ( 这 里 是 实数 ), w 是 权重 变量 ,x 
特征 向 量 。 
相关 的 连接 函数 和 决策 函数 是 对 等 连接 函数 。 回 归 模 型 通常 不 用 设置 阔 值 ,因此 模型 的 预测 
函数 就 是 简单 的 y=w' x 。 
在 MLlib 中 , 标准 的 最 小 二 乘 回 归 不 使 用 正则 化 。 正 则 化 是 用 于 解决 过 拟 合 问题 的 。 但 是 应 
用 到 错误 预测 值 的 损失 函数 会 将 错误 做 平方 , 从 而 放大 损失 。 这 也 意味 着 最 小 二 乘 回 归 对 数据 中 
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的 异常 点 和 过 拟 合 非常 敏感 。 因 此 对 于 分 类 器 ， 我 们 通常 在 实际 中 必须 应 用 一 定 程 度 的 正则 化 。 
线性 回归 在 应 用 L2 正则 化 时 通常 称 为 岭 回归 ( ridge regression ), 应 用 L1 正则 化 时 称 为 lasso 


( least absolute shrinkage and selection operator )。 


当 数 据 集 不 大 或 样本 很 少时 ， 模 型 过 拟 合 的 可 能 性 很 大 。 因 此 ， 十 分 建议 使 用 如 Ll1、L2 或 
elastic net regularization 这 样 的 正则 表达 式 。 


























更 多 关于 线性 最 小 二 乘 回归 模型 的 资料 ， 请 查看 Spark MLlib 文档 : 
6 http://spark.apache.org/docs/latest/mllib-linear-methods.html#linear-least-squares- 


lasso-and-ridge-regression。 


7.1.2 决策 树 回归 


类 似 于 线性 回归 模型 需要 使 用 对 应 的 损失 函数 , 决策 树 在 用 于 回归 时 也 要 使 用 对 应 的 不 纯度 
度量 方法 。 这 里 ， 不 纯度 用 方差 ( variance ) 度量 ， 和 最 小 二 乘 线 性 回归 模型 定义 平方 损失 的 方 
式 一 样 。 














更 多 关于 决策 树 和 不 纯度 度量 方法 的 资料 , 详 见 Spark 文档 中 MLlib 决策 树 
部 分 : http://spark.apache.org/docs/latest/mllib-decision-tree.html。 








下 图 是 一 个 回归 问题 的 示例 图 ， 其 中 输入 变量 为 x 轴 ， 目标 变量 为 y 轴 。 图 中 线性 预测 函数 
用 (向 右上 方 倾斜 的 ) 红色 虚线 表示 , 决策 树 预 测 函 数 用 ( 拆 线 型 的 ) 绿色 虚线 表示 。 可 以 看 出 ， 
决策 树 可 以 使 用 较 复 杂 的 非 线性 模型 来 拟 合 数据 。 
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7.2 评估 回归 模型 的 性 能 
第 6 章 评估 分 类 模型 时 仅仅 关注 预测 输出 的 类 别 和 实际 类 别 。 特 别 是 对 于 所 有 预测 的 二 元 结 
果 ， 某 个 样本 预测 的 正确 与 否 并 不 重要 ， 我 们 更 关心 预测 结果 中 正确 或 者 错误 的 总 数 。 

对 回归 模型 而 言 , 因为 目标 变量 是 任意 实数 , 所 以 我 们 的 模型 不 大 可 能 精确 预测 到 目标 变量 。 
然而 ， 我 们 可 以 计算 预测 值 和 实际 值 的 误差 ， 并 用 某 种 度量 方式 进行 评估 。 


一 些 用 于 评估 回归 模型 性 能 的 标准 方法 包括 : 均 方 误差 ( MSE，mean squared error )、 均 方 
根 误差 ( RMSE，root mean squared error )、 平 均 绝 对 误差 ( MAE，mean absolute error )、 尺 -平方 
系数 (R-squared coefficient ) 等 。 
































7.2.1 均 方 误差 和 均 方 根 误差 
均 方 误差 ( MSE ) 是 平方 误差 的 均值 ， 用 作 最 小 二 乘 回归 的 损失 函数 ， 公 式 如 下 : 

















» (wx(i) —y(0)) 

这 个 公式 计算 的 是 所 有 样本 的 预测 值 和 实际 值 平方 差 之 和 ， 最 后 除 以 样本 总 数 。 

均 方 根 误差 (RMSE ) 是 MSE 的 平方 根 。 将 各 对 预测 值 和 实际 值 的 差 的 平方 求 和 ， 该 和 的 
平均 数 就 是 MSE，RMSE 则 是 该 平均 的 平方 根 。 它 从 二 次 损失 函数 推导 而 出 。 可 从 公式 看 出 ， 
对 于 越 大 的 误差 ， 它 的 惩罚 越 重 。 

为 了 计算 模型 预测 的 平均 误差 ,我们 首先 预测 RDD 实例 LapeledqPoint 中 的 每 个 特征 向 量 ， 
然后 计算 预测 值 与 实际 值 的 误差 并 组 成 一 个 Double 数组 的 RDD ,最 后 使 用 mean 方法 计算 所 有 
Double 值 的 平均 值 。 

计算 平方 误差 函数 的 Scala 实现 如 下 : 

def squaredError(actual: Double, pred: Double): Double ={ 


return Math.pow( (pred - actual), 2.0 ) 
} 


















































dy 











7.2.2 ”平均 绝对 误差 
平均 绝对 误差 ( MAE ) 是 预测 值 和 实际 值 的 差 的 绝对 值 的 平均 值 。 


w' x(i)—»()| 


i=1 7 


n 
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MAE 和 MSE 大 体 类 似 ， 区 别 在 于 MAE 对 大 的 误差 没有 惩罚 。 
计算 MAE 的 Scala 代码 如 下 : 


def abs_error (actual: Double, pred: Double): Double = { 
return Math.abs( (pred - actual) ) 


} 


7.2.3 均 方 根 对 数 误差 


这 种 度量 方法 虽然 没有 MSE 和 MAE 使 用 得 广 , 但 被 用 于 Kaggle 中 以 bike sharing 作为 数据 集 
的 比赛 。 均 方 根 对 数 误 差 ( RMSLE，root mean squared log error ) 可 以 认为 是 对 预测 值 和 目标 值 进 
行 对 数 变换 后 的 RMSE。 这 种 度量 方法 适用 于 目标 变量 值 域 很 大 , 并 且 没 有 必要 在 预测 值 和 目标 值 
本 身 很 大 时 对 较 大 误差 进行 惩罚 的 情况 。 另 外 , 它 也 适用 于 计算 误差 的 百分率 而 不 是 误差 的 绝对 值 。 









































(和 Kaggle 竞赛 的 评测 页 面 : https://www.kaggle.com/c/bike-sharing-demand#evaluation。 


计算 RMSLE 的 Scala 代码 如 下 : 


def squared log_error(actual: Double, pred: Double): Double = { 
return (np.log(pred + 1) - np.log(actual + 1))**2 
return Math.pow( (Math.log(pred +1) - Math.log(actual +1)),2.0) 
} 


7.2.4” RR- 平方 系数 


-平方 系数， 也 称 判定 系数 ( coefficient of determination )， 用 来 评估 模型 拟 合 数据 的 好 坏 ， 
常用 于 统计 学 中 。R- 平 方 系数 具体 测量 目标 变量 的 变异 度 ( degree of variation )， 最 终结 果 为 0~1 
的 一 个 值 ，1 表示 模型 能 够 完美 地 拟 合 数据 。 


























7.3 ”从 数据 中 抽取 合适 的 特征 


因为 回归 的 基础 模型 和 分 类 模型 一 样 ， 所 以 我 们 可 以 使 用 同样 的 方法 来 处 理 输入 的 特征 。 实 际 
中 唯一 的 不 同 是 ， 回 归 模 型 的 预测 目标 是 实数 变量 ， 而 分 类 模型 的 预测 目标 是 类 别 变量 。 为 了 满足 
两 种 情况 , MLlib 中 的 LabeledPoint 类 已 经 考虑 了 这 一 点 , 类 中 的 lapel 字段 使 用 Double 类 型 。 
































从 bike sharing 数据 集 抽取 特征 


为 了 阐述 本 章 的 一 些 概念 , 我 们 选择 了 用 bike sharing 数据 集 做 实验 。 这 个 数据 集 记录 了 bike 
sharing 系统 每 小 时 自行 车 的 出 租 次 数 , 另外 还 包括 日 期 时间、 大气、 季节 和 节假日 等 相关 信息 。 
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这 个 数据 集 的 下 载 地 址 : http://archive.ics.uci.edu/ml/datasets/Biket+Sharing+ 
Dataset。 
点 击 Data Folder 链接 下 载 Bike-Sharing-Datase.zip 文件 。 
0 波尔图 大 学 的 Hadi Fanaee-T 在 bike sharing 数据 集中 补充 了 大 量 天 气 和 季节 
相关 的 数据 ， 相 关 论 文 见 : 
FANAEE-T H, GAMA J. Event labeling combining ensemble detectors and 
background knowledge [J]. Progress in Artificial Intelligence, 2014 ,2( 2-3 ): 113-127. 


下 载 并 解压 Bike-Sharing-Dataset.zip， 会 出 现 一 个 名 为 Bike-Sharing-Dataset 的 文件 夹 ， 里 面 
包含 day.csv、hour.csv 和 Readme.txt 等 文件 。 


其 中 Readme.txt 文件 有 数据 集 的 相关 信息 ， 包 括 变量 名 和 描述 。 打 开 文件 ， 可 以 看 到 如 下 


信息 。 


口 instant: 记录 ID 

D dteday: 日 期 

口 season: 四 季 信 息 ， 如 spring 、summer 、winter 和 fall 
口 yr: 年 份 (2011 或 者 2012 ) 

D mnth: 月 份 

口 nr: 当天 时 刻 

口 holidqay: 是 否 节假日 

口 weekday: 周 几 

口 workingday: 当天 是 否 为 工作 日 

口 weathersit: 表示 天 气 类 型 的 参数 

DQ temp: 气温 

D atemp: 体感 温度 

口 hum: 湿度 

口 windspeed: 风速 

口 cnt: 目标 变量 ， 每 小 时 的 自行 车 租用 量 


下 面 使 用 包含 小 时 级 数据 的 hour.csv。 打 开 文 件 ， 第 一 行 是 每 一 列 的 关键 字 。 如 下 代码 段 会 
打印 首 行 和 前 20 行 数据 : 

















val spark = SparkSession 
.builder 
.appName ("BikeSharing") 
.master ("local[1]") 
.getOrCreate() 
// 读 取 csv 文件 
val df = spark.read.format ("csv") .option("header", "true") 
.load("/dataset/BikeSharing/hour.csv") 
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df .cache () 
Qf.registerTempTable("BikeSharingy") 

print (df.count ()) 

spark.sql ("SELECT * FROM BikeSharing").show!() 


对 应 输出 如 下 代码 及 图 片 : 


1-- instant: integer (nullable = true) 
1-- dteday: timestamp (nullable = true) 
1-- season: integer (nullable = true) 
1-- yr: integer (nullable = true) 

1-- mnth: integer (nullable = true) 

1-- hr: integer (nullable = true) 

1-- holiday: integer (nullable 
1-- weekday: integer (nullable 
1-- workingday: integer (nullable 
1-- weathersit: integer (nullable 
1-- temp: double (nullable = true) 
1-- atemp: double (nullable = true) 

1-- hum: double (nullable = true) 

1-- windspeed: double (nullable = true) 
1-- casual: integer (nullable = true) 

1-- registered: integer (nullable = true) 
1-- cnt: integer (nullable = true 


true) 
true) 
true) 
true) 




































































+ 一 一 一 一 一 一 一 一 一 一 一 一 一 +- 一 一 一 一 + 十 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 一 一 一 - 十 一 一 + 一 一 一 一 + 一 一 一 
instant weekday |workingday |weathersit|temp| atemp| hum|lwindspeed|casual|registered|cnt 
一 -一 一 一 一 一 一 一 一 一 一 一 一 +- 一 一 一 一 -一 一 一 一 一 一 一 -一 一 一 一 一 一 + 一 一 上 一 一 一 一 二 一 一 一 | 

1|2011-01-01 6 0 1|0.24|0.2879|0.81 0.0 EE 13| 16 
212011-01-01 6 0 116.2210.2727| 0.8 0.0 8 32| 40 
312011-01-01 6 0 116.2210.2727| 0.8 0.0 5 2 
4|2011-01-01 6 0 1|0.24|0.2879|0.75 0.0 3 10| 13 
5|2011-01-01 6 0 116.2419.287910.75 0.0 0 于 | 亚 
6|2011-01-01 6 0 210.24|0.257610.75 0.0896 0 1| 1 
7|2011-01-01 6 0 116.2210.2727| 0.8 0.0 0| 2 
8|2011-01-01 6 0 1| 0.210.257610.86 0.0 1 2 :六 
912011-61-01 6 0 1|0.24|0.2879|0.75 0.0 1 7| 8 
1012011-01-01 6 0 110.3219.348510.76 0.0 8 6| 14 
11|12011-01-01 6 0 116.3810.393910.76 0.2537 12 24| 36 
12|2011-01-01 6 0 1|0.36|0.3333|10.81 0.2836 26 30| 56 
1312011-01-01 6 0 1|10.42|0.424210.77 0.2836 29 55| 84 
1412011-01-01 6 0 210.46|0.454510.72 0.2985 47 47| 94 
1512011-01-01 6 0 210.46|0.454510.72 0.2836 35 711166 
1612011-01-01 6 0 210.44|0.4394|10.77 0.2985 40 70|110 
17|2011-01-01 6 0 210.42|0.4242|10.82 0.2985 41 521°93 
1812011-01-01 6 0 210.44|0.439410.82 0.2836 15 32| ,67 
1912011-01-01 6 0 310.42|0.424210.88 0.2537 9 261.35 
2012011-01-01 6 0 319.4210.424210.88 0.2537 6 34137 
一 一 一 一 一 - 一 一 一 一 一- 一 一 十 一 一 一 十 一 一 一 一 十 一 一 一 十 一 一 一 - 一 一 + 一 一 + 一 -一 -一 一 一 二 一 一 一 一 二 一 一 一 + 一 - 一 + 一 一 一 一 + 一 一 一 半 
only showing top 20 rows 

















本 章 后 续 内 容 会 使 用 Scala 来 编写 代码 样 例 。 对 应 的 源 代码 位 于 如 下 路 径 : https://github.comy/ 
ml-resources/spark-ml/tree/branch-ed2/Chapter 07。 


首先 载 入 数据， 并 查看 数据 集 。 继 续 之 前 的 代码 ， 获 取 记 录 条 数 的 方法 如 下 : 
print (df.count ()) 
其 输出 如 下 : 


17,379 














Wr 
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故 数据 集中 有 17 379 条 小 时 级 数据 。 我 们 之 前 已 查看 过 列 名 。 下 面 将 会 忽略 record ID ( 记 
录 ID ) 和 各 原始 日 期 列 ， 同 时 也 会 忽略 casual 和 registered 这 两 列 的 计数 ， 但 关注 总 的 计 
数 变 量 cnt 列 的 值 。cnt 即 上 述 两 列 的 和 。 这 样 会 总 共 剩 下 12 列 ， 对 应 12 个 变量 。 前 8 个 为 类 
别 值 ， 后 4 个 为 正则 化 后 的 实数 值 。 


// 丢弃 fecord id、 date、casual 和 registered 列 
val df1l = df.drop("instant") 

.drop ("dteday") 

.drop ("casual") 

.drop ("registered") 
df1.printSchema () 


这 部 分 代码 的 输出 如 下 : 


root 

1-- season: integer (nullable = true) 

1-- yr: integer (nullable = true) 

1-- mnth: integer (nullable = true) 

1-- hr: integer (nullable = true) 

1-- holiday: integer (nullable = true) 
1-- weekday: integer (nullable = true) 
1-- workingday: integer (nullable true) 
1-- weathersit: integer (nullable true) 
1-- temp: double (nullable = true) 

1-- atemp: double (nullable = true) 

1-- hum: double (nullable = true) 

1-- windspeed: double (nullable = true) 
1-- cnt: integer (nullable = true) 


下 面 的 代码 进一步 将 所 有 列 的 值 类 型 转 为 Double 类 型 : 


// 将 各 列 转 为 Double 类 型 
val df2 = df1l.withColumn("season", dflil("season") .cast ("double")) 
.withColumn ("yr", dfli("yr").cast ("double")) 
.withColumn ("mnth", dfli("mth").cast("double")) 
.withColumn ("hr", df1i("hr").cast ("double")) 
.withColumn ("holiday", dfli("holiday") .cast ("double")) 
.withColumn ("weekday", dfl1 ("weekday") .cast ("double")) 
.withColumn ("workingday", dfl("workingday") .cast ("double")) 
( 
( 
( 
( 
( 
(Wy 








.withColumn ("weathersit", dfl1("weathersit").cast ("double")) 
.withColumn ("temp", dfli("temp") .cast ("double")) 

.withColumn ("atemp", dfli("atemp") .cast ("double")) 
.withColumn ("hum", dfli("hum") .cast ("double")) 

.withColumn ("windspeed", df1l("windspeed") .cast ("double")) 
.withColumn ("label", dfli("label").cast ("double")) 














df2.printSchema () 
其 对 应 应 输出 如 下 : 


root 
1-- season: double (nullable = true) 
1-- yr: double (nullable = true) 
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1-- mnth: double (nullable = true) 

1-- hr: double (nullable = true) 

1-- holiday: double (nullable = true) 
1-- weekday: double (nullable = true) 
1-- workingday: double (nullable = true) 
1-- weathersit: double (nullable = true) 
1-- temp: double (nullable = true) 

1-- atemp: double (nullable = true) 

1-- hum: double (nullable = true) 

1-- windspeed: double (nullable = true) 
1-- label: double (nullable = true) 


该 数据 集 本 身 是 类 别 型 ， 需 要 使 用 Vector Assembler 和 Vector Indexer 参照 如 下 步骤 处 理 。 


口 Vector Assembler: 一 种 将 多 个 列 合并 为 一 个 向 量 列 的 转换 器 。 它 将 多 个 原始 特征 合并 为 
一 个 特征 向 量 ， 从 而 能 用 于 训练 线性 回归 和 决策 树 之 类 的 机 器 学 习 模 型 。 

口 Vector Indexer: 对 类 别 特征 进行 索引 ， 这 里 指 从 Vector Assembler 传 来 的 那些 类 别 特征 。 
它 会 自动 确定 哪些 特征 是 类 别 特征 ， 并 将 实际 的 值 转 为 类 别 索 引 。 


这 里 ，df2 中 除 1abel 外 的 所 有 列 都 会 经 VectorAssembler 转 为 rawFeatures。 
































给 定 一 个 类 型 为 VeECtor 的 输入 列 和 一 个 参数 maxCategories, VectorIindexer 会 根据 
不 同 的 值 来 确定 哪些 特征 应 该 为 类 别 型 。 类 别 型 的 分 类 最 多 有 maxcategories 种 。 


// 丢弃 label 并 创建 特征 向 量 

val dts. sdft2 ,drop( "label"™) 

val featureCols = df3.columns 

val vectorAssembler = new VectorAssembler() 
.SetInputCols (featureCols) 
.SetOutputCol ("rawFeatures") 

val vectorIindexer = new VectorIindexer () 
.SetInputCol ("rawFeatures") 
.SetOutputCol ("features") .setMaxCategories (4) 














完整 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 07/scala/ 
2.0.0/scala-spark-app/src/main/scala/org/sparksamples/regression/bikesharing/ 


BikeSharingExecutor.scala 


7.4 ”回归 模型 的 训练 和 应 用 
回归 模型 的 训练 过 程 和 分 类 模型 相同 ， 将 训练 数据 导入 相关 的 训练 函数 即 可 。 





7.4.1 BikeSharingExecutor 





BikeSharingExecutor 可 用 于 选择 和 运行 相关 的 回归 模型 ， 比如 运行 LinearRegression.、 
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执行 线性 回归 流程 、 设 置 程序 参数 为 LR_<type>， 其 中 type 是 数据 格式 。 其 他 命令 可 参见 如 
下 代码 片段 : 


def executeCommand (arg: String, vectorAssembler: VectorAssembler 
, VectorIindexer: Vectorindexer 
， dataFrame: DataFrame 
,， spark: SparkSession) = arg match { 
Case "LR_Vectors" => LinearRegressionPipeline 
.linearRegressionWithVectorFormat (vectorAssembler, vectorIindexer, dataFrame) 
case "LR_SVM" => LinearRegressionPipeline 
.linearRegressionWithSVMFormat (spark) 
Case "GLR_ Vectors" => GeneralizedLinearRegressionPipeline 
.genLinearRegressionWithVectorFormat (vectorAssembler, vectorIindexer, dataFrame) 
Case "GLR_SVM" => GeneralizedLinearRegressionPipeline 
.genLinearRegressionWithSVMFormat (spark) 
case "DT Vectors" => DecisionTreeRegressionPipeline 
.decTreeRegressionWithVectorFormat (vectorAssembler, vectorIindexer, dataFrame) 
case "DT_SVM" => GeneralizedLinearRegressionPipeline 
.genLinearRegressionWithSVMFormat (spark) 
Case "RF_Vectors" => RandomForestRegressionPipeline 
.randForestRegressionWithVectorFormat (vectorAssembler 
, VectorIindexer, datarFrame) 
case "RF_SVM" => RandomForestRegressionpPipeline 
.randForestRegressionWithSVMFormat (spark) 
case "GBT Vectors" => GradientBoostedTreeRegressorPipeline 
.gbtRegressionWithVectorFormat (vectorAssembler, vectorIindexer, dataFrame) 
case "GBT_SVM" => GradientBoostedTreeRegressorPipeline 
.gbtRegressionWithSVMFormat (spark) 

















完整 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 07/scala/ 
i 2.0.0/scala-spark-app/src/main/scala/org/sparksamples/regression/bikesharing/ 
BikeSharingExecutor.scala 


7.4.2 在 bike sharing 数据 集 上 训练 回归 模型 
1. 线性 回归 


线性 回归 是 最 常用 的 算法 。 回 归 分 析 的 核心 是 用 一 条 线 来 拟 合 数据 点 。 线 性 方程 表示 为 
y=c+Dxx， 其 中 ?为 估计 所 得 的 因 变量 ，c 为 常数 ，2 为 回归 系数 ， 而 x 为 自 变 量 。 


下 面 将 数据 集 按 8 : 2 分 为 训练 数据 和 测试 数据 ,借助 Spark 中 的 回归 评估 用 LinearRegression 
来 创建 模型 ， 并 在 测试 数据 集 上 得 到 各 评估 指标 。lineRegressionWithVectorFormat 靖 数 
使 用 分 类 数据 , 而 1inearRegressionWithSsvMFromat 使 用 bike sharing 数据 集 的 libsvm 格式 。 


























def linearRegressionWithVectorFormat (vectorAssembler: VectorAssembler 
, VectorIndexer : VectorIindexer 
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,， dataFrame: DataFrame) = { 
val lr = new LinearRegression() 
.SetFeaturesCol ("features" 
.SetLabelCol ("label") 
.SetRegParam(0.1) 
.SetElasticNetParam(1.0) 
.SetMaxIter (10) 


val pipeline = new Pipeline().setStages (Array (vectorAssembler, vectorIndexer, 1l1r)) 
val Array (training, test) = dataFrame.randomSplit (Array (0.8, 0.2), seed = 12345) 
Val model = pipeline.fit (training) 

val fullpredictions = model.transform(test).cache() 

val predictions = fullPredictions.select ("prediction") .rdd.map(_.getDouble(0) 


val labels = fullPredictions.select ("label") .rdd.map(_.getDouble(0)) 
val RMSE = new RegressionMetrics (predictions.zip(labels)).rootMeanSquaredError 





println(s" Root mean squared error (RMSE): S$RMSE") 


def linearRegressionWithSVMFormat (spark: SparkSession) = { 


} 


// 导入 训练 数据 
val training = spark.read.format ("libsvm") 
.load("./src/main/scala/org/sparksamples/regression/dataset/BikeSharing/lsvmHours .txt") 


val lr = new LinearRegression() 
.SetMaxIter (10) 
.SetRegParam(0.3) 
.SetElasticNetParam(0.8) 


// 拟 合 模型 
val lrModel = lr.fit (training) 


// 打印 线性 回归 模型 的 系数 和 礁 距 


println(s"Coefficients: S${lrModel.coefficients} Intercept: ${lrModel.intercept}") 


// 汇总 模型 在 训练 集 上 的 表现 ， 并 打印 一 些 指 标 

val trainingSummary = lrModel.summary 

println(s"numIterations: S${trainingSummary .totalIterations}") 
println(s"objectiveHistory: S${trainingSummary .objectiveHistory.toList}") 
trainingSummary .residuals.show() 

println(s"RMSE: S${trainingSummary .rootMeanSquaredError}" 


println(s"r2: S${trainingSummary .r2}") 


其 输出 如 下 。 请 注意 ，resiqduals 表示 残 差 。 


32.923257978011431 
59.976140443599031 
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| 35.80737062786482| 
1-12.5098864680510751 
1-25.9797746331177921 
1-29.3528624742012241 
1-5.95173469266914351 
| 18.4537010195009471 
1-24.8593272933847871 
| -47.142820801032871 
| -27.506521008488321 
| 21.8653090973365351 
| 4.0377227988533951 
1-25.6913482133683431 
| -13.598305383873681 
| 9.3366917270803361 
| 12.834619832595821 
| -20.5026155752185 | 
| -34.832406213189371 
| -34.302294378256151 


only showing top 20 rows 
RMSE: 149.54567868651284 
r2: 0.3202369690447968 





完整 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 07/scala/ 
2.0.0/scala-spark-app/src/main/scala/org/sparksamples/regression/bikesharing/ 
LinearRegressionPipeline.scala。 
7 
2. 广义 线性 回归 











线性 回归 服从 高 斯 分 布 ， 但 广义 线性 模型 ( GLM，generalized linear models ) 是 一 种 特例 ， 
其 响应 变量 服从 指数 分 布 家 族 中 的 某 种 分 布 。 


下 面 将 数据 按 8 : 2 分 为 训练 和 测试 用 数据 集 ， 借 助 Spark 中 的 回归 评估 用 Generalized- 
LinearRegression 来 创建 模型 ， 并 在 测试 数据 集 上 得 到 各 评估 指标 。 


object GeneralizedLinearRegressionPipeline { 








@transient lazy val logger = Logger.getLogger (getClass.getName) 


def genLinearRegressionWithVectorFormat (vectorAssembler: VectorAssembler 
, Vectorindexer: Vectorindexer 
,， dataFrame: DataFrame) = { 
val lr = new GeneralizedLinearRegression\() 

.SetFeaturesCol ("features") 

.SetLabelCol ("label") 

.setFamily ("gaussian") 

.SetLink ("identity") 

.SetMaxIter (10) 

.SetRegParam(0.3) 
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val pipeline = new Pipeline().setStages (Array (vectorAssembler, vectorIindexer, 1l1r)) 
val Array (training, test) = dataFrame.randomSplit (Array (0.8, 0.2), seed = 12345) 
val model = pipeline.fit (training) 


val fullPredictions = model.transform(test).cache() 

val predictions = fullPredictions.select ("prediction") .rdd.map(_.getDouble(0)) 
val labels = fullpPredictions.select ("label") .rdd.map(_.getDouble(0)) 

val RMSE = new RegressionMetrics (predictions.zip(labels)) .rootMeanSquaredError 
println(s" Root mean squared error (RMSE): SRMSE") 





def genLinearRegressionWithSVMFormat (spark: SparkSession) = { 
// 导入 训练 数据 
val training = spark.read.format ("libsvm") 


.load("./src/main/scala/org/sparksamples/regression/dataset/BikeSharing/lsvm 
Hours .txt") 


val lr = new GeneralizedLinearRegression\() 
.SetFamily ("gaussian") 
.SetLink ("identity") 
.SetMaxIter (10) 
.SetRegParam(0.3) 


// 拟 合 模型 
val model = lr.fit (training) 


// 打印 广义 线性 回归 模型 的 系数 和 截 距 
println(s"Coefficients: S${model.coefficients}") 
println(s"Intercept: S${model.intercept}") 


// 总 结 模 型 在 训练 集 上 的 表现 并 打印 一 些 指 标 


val summary = model.summary 








println(s"Coefficient Standard Errors: 
Ss{summary.coefficientStandardErrors.mkSstring(",")}") 

println(s"T Values: S${summary.tValues.mkString(",")}") 

println(s"P Values: S${summary .pValues .mkString(",")}") 

println(s"Dispersion: S${summary.dispersion}") 

println(s"Null Deviance: S${summary.nullDeviance}") 

println(s"Residual Degree Of Freedom Null: ${summary.residualDegreeOfFreedomNull}") 

println(s"Deviance: S${summary .deviance}") 

println(s"Residual Degree Of Freedom: S${summary.residualDegreeOfFreedom}") 

println(s"AIC: S${summary.aic}") 

println("Deviance Residuals: ") 

summary .residuals().show!() 


其 输出 如 下 。 


如 果 G neralizedLinearRegression.fitIntercept 设 为 true, 则 会 对 截 距 也 拟 合 ， 
最 后 返回 的 那 项 对 应 截 距 。 


述 代码 的 系数 标准 差 为 : 
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1.1353970394903834,2.2827202289405677,0.5060828045490352,0.17353679457103457 
7.062338310890969,0.5694233355369813,2.5250738792716176, 

2.0099641224706573,0.7596421898012983,0.6228803024758551,0.07358180718894239 
:0.30550603737503224,12.369537640641184 


预 估 系数 和 截 距 的 统计 量 ( Tstatistic ) 如 下 : 


T Values: 15.186791802016964,33.26578339676457,-11.27632316133038 
18.658129103690262,-3.8034120518318013,2.6451862430890807 
:0.9799958329796699,3.731755243874297,4.957582264860384 
16.02053185645345,-39.290272209592864,5.5283417898112726 
-0.7966500413552742 


预 估 系数 和 截 距 的 双 侧 P 值 ( two-sided P-value ) 如 下 : 


P Values: 0.0,0.0,0.0,0.0,1.4320532622846827E-4 
:0.008171946193283652,0.3271018275330657 
1.907562616410008E-4,7.204877614519489E-7 
1.773422964035376E-9,0.0,3.2792739856901676E-8 
0.42566519676340153 


离 差 ( dispersion ) 如 下 : 
Dispersion: 22378.414478769333 
对 于 二 项 分 布 和 泊 松 分 布 家族 , 拟 合 所 得 模型 的 Dispersion 取 值 为 1 .0。 
9 其 他 情况 则 为 残余 皮尔 进 卡 方 (residual Pearson's chi-squared statistic ) 与 残余 自 
由 度 (residual degeress of freedom ) 的 商 。 


上 述 代 码 中 的 Null deviance 为 : 


Null Deviance: 5.717615910707208E8 


残余 自由 度 如 下 : 

Residual Degree Of Freedom Null: 17378 

在 logistic 回归 分 析 中 ,偏差 ( deviance ) 对 应 线性 回归 中 的 平方 和 的 计算 。 它 用 于 衡量 一 个 
线性 模型 对 数据 拟 合 的 差异 程度 。 当 存在 一 个 饱和 (saturated ) 的 模型 ( 理论 上 完美 拟 合 数据 ) 
时 ,偏差 由 给 定 模 型 和 该 饱和 模型 的 比较 得 出 。 


Deviance: 3.886235458383082E8 






































(人 参见 https://en.wikipedia.org/wiki/Logistic regression 。 


@ 自由 度 


自由 度 是 从 部 分 样本 来 估计 整体 统计 特征 时 的 核心 概念 。 其 通常 的 定义 为 样本 数 与 被 限制 变 
量 个 数 的 差 值 。 通 常 简写 为 df ( degrees of freedom )。 


可 以 将 df 视 为 从 某 一 个 统计 量 估算 另 一 统计 量 时 需要 考虑 的 限制 条 件 。 上 述 代 码 的 输出 为 : 
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Residual Degree Of Freedom: 17366 

赤 池 信息 准则 (AIC，Akaike information criterion ) 是 一 种 对 给 定数 据 集 上 不 同 统 计 模 型 相 
对 效果 的 衡量 。 给 定 针 对 某 一 数据 集 的 若干 模型 ,AIC 估算 各 个 模型 之 间 的 相对 效果 如 何 。 由 此 ， 
AIC 提供 了 一 种 模型 选择 的 方法 : 





i 参见 https://en.wikipedia.org/wiki/Akaike information criterion 。 





对 于 上 述 模 型 ，AIC 的 输出 如 下 : 


AIC: 223399.95490762248 


| 32.385412453563546| 
| 59.50791859941151 
| 34.98037491140896| 
1-13.5034504690224321 
1-27.0059544406590321 
1-30.197952952158246| 
| -7.0396568616837781 
| 17.3201939230554451 

-26.01597032720541 
-48.691662471162181 
-29.509849675849551 
20.5202221927420041 
| 1.65513111832078151 
1-28.5243736746652131 
1-16.3379358528418381 
| 6.4419239043100451 
| 9.910725454921931 
1-23.418896074866524| 
1-37.8707976506963461 
1-37.3733016223329461 


only showing top 20 rows 


完整 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 07/scala/ 
0 2.0.0/scala-spark-app/src/main/scala/org/sparksamples/regression/bikesharing/ 
GeneralizedLinearRegressionPipeline.scala。 


3. 决策 树 回归 

决策 树 是 一 种 强大 的 、 非 概率 的 方法 ， 它 能 捕捉 更 复杂 的 非 线 性 模式 和 特征 交互 feature 
interaction )。 在 许多 任务 上 , 决策 树 表现 很 好 ,相对 容易 理解 和 解释 , 能 处 理 类 别 和 数值 型 特征 ， 
而 且 不 需要 对 数据 进行 缩放 或 标准 化 。 它 们 在 集成 时 的 表现 也 很 好 ( 比如 , 决策 树 的 集成 ， 即 决 
策 和 森林 )。 
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决策 树 是 一 种 自 上 而 下 的 方法 ， 从 某 个 根 节 点 〈 特 征 ) 开始 ,每 一 步 都 选择 那个 能 对 数据 集 
进行 最 优 分 割 〈 通过 评估 特征 分 割 的 信息 增益 ) 的 特征 。 信 息 增益 由 该 节点 的 不 纯度 ( 即 节 点 标 
签 不 相似 或 不 同 质 的 程度 ) 减 去 分 割 后 的 两 个 子 节点 的 不 纯度 的 加 权 和 得 到 。 


如 下 代码 定义 了 两 种 方法 ， 分 别 按 8 : 2 和 7 : 3 的 比例 ， 将 bike sharing 数据 集 分 为 训练 和 
测试 用 数据 集 , 借助 Spark 中 的 回归 评估 用 DecisionTreeRegression 来 创建 模型 ， 并 在 测试 
数据 集 上 得 到 各 评估 指标 。 


object DecisionTreeRegressionPipeline { 

















@transient lazy val logger = Logger.getLogger (getClass.getName) 


def decTreeRegressionWithVectorFormat (vectorAssembler: VectorAssembler 
, Vectorindexer: Vectorindexer 
,， dataFrame: DataFrame) = { 
val lr = new DecisionTreeRegressor() 
.SetFeaturesCol ("features") 
.SetLabelCol ("label") 


val pipeline = new Pipeline() .setStages (Array (vectorAssembler, vectorIindexer, 











ey) 
val Array (training, test) = dataFrame.randomSplit (Array (0.8, 0.2), seed = 12345) 
val model = pipeline.fit (training) 
// 进行 预测 7 
val predictions = model.transform(test) 
// 选择 样本 行 来 显示 
predictions.select ("prediction", "label", "features") .show(5) 
// Select (prediction, true label) and compute test error. 
val evaluator = new RegressionEvaluator () 
.SetLabelCol ("label") 
.SetPredictionCol ("prediction") 
.setMetricName ("rmse") 
val rmse = evaluator .evaluate (predictions) 
println("Root Mean Squared Error (RMSE) on test data = " + rmse) 
val treeModel = model.stages(1) .asInstanceOf [DecisionTreeRegressionModel] 
println("Learned regression tree model:\n" + treeModel .toDebugString) 
} 
def decTreeRegressionWithSVMFormat (spark: SparkSession) = { 


// 载 入 训练 数据 
val training = spark.read.format ("libsvm") 
.load("/Users/manpreet.singh/Sandbox/codehub/github/machinelearning/spark-ml/" + 
"Chapter_07/scala/2.0.0/scala-spark-app/src/main/scala/org/sparksamples/" + 
"regression/dataset/BikeSharing/lsvmHours .txt") 


// 自动 确定 类 别 特 征 ， 并 建立 索引 
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// 这 里 ， 有 4 个 以 上 不 同 取 值 的 特征 视 为 连续 特征 
val featureIndexer = new VectorIndexer () 
.SetInputCol ("features") 
.SetOutputCol ("indexedFeatures") 
.SetMaxCategories (4) 
.fit (training) 


// 将 数据 按 7 : 3 分 为 训练 和 测试 数据 
val Array (trainingData, testData) = training.randomSplit (Array (0.7, 0.3)) 


// 训练 一 个 DecisioTree 模型 

val dt = new DecisionTreeRegressor() 
.SetLabelCol ("label") 
.SetFeaturesCol ("indexedFeatures") 


// 将 Indexer 和 树 衔 接 到 一 个 Pipeline 中 
val pipeline = new Pipeline() 
.SetStages (Array (featureIndexer, dt)) 





// 训练 模型 。 这 同样 也 会 触发 Indexer 的 运行 val model = pipeline.fit (trainingData) 


// 进行 预测 
val predictions = model.transform(testData) 


// 选择 要 显示 的 例子 


predictions.select ("prediction", "label", "features").show(5) 


// 选择 (预测 值 ， 真 实 值 ) 对 ， 并 计算 测试 误差 
val evaluator = new RegressionEvaluator() 
.SetLabelCol ("label") 
.SetPredictionCol ("prediction") 
.SetMetricName ("rmse") 
val rmse = evaluator.evaluate (predictions) 
println("Root Mean Squared Error (RMSE) on test data = " + rmse) 


val treeModel = model.stages(1) .asInstanceOf [DecisionTreeRegressionModel] 
println("Learned regression tree model:\n" + treeModel .toDebugString) 


} 
其 输出 如 下 : 


Coefficients: 
[17.243038451366886,75.93647669134975,-5.7067532504873215,1.5025039716365927 
-26.86098264575616,1.5062307736563205,2.4745618796519953,7.500694154029075 
:3.7659886477986215,3.7500707038132464,-2.8910492341273235,1.6889417934600353] 
Intercept: -9.85419267296242 





Coefficient Standard Errors: 

1.1353970394903834,2.2827202289405677,0.5060828045490352,0.17353679457103457 
:7.062338310890969,0.5694233355369813,2.5250738792716176,2.0099641224706573 
10.7596421898012983,0.6228803024758551,0.07358180718894239,0.30550603737503224 
:12.369537640641184 

T Values: 

15.186791802016964,33.26578339676457,-11.27632316133038,8.658129103690262 
1:-3.8034120518318013,2.6451862430890807,0.9799958329796699,3.731755243874297 
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:4.957582264860384,6.02053185645345,-39.290272209592864,5.5283417898112726 
-0.7966500413552742 

P Values: 

0.0,0.0,0.0,0.0,1.4320532622846827E-4,0.008171946193283652,0.3271018275330657 
:1.907562616410008E-4,7.204877614519489E-7,1.773422964035376E-9,0.0 
13.2792739856901676E-8,0.42566519676340153 

Dispersion: 22378.414478769333 


Null Deviance: 5.717615910707208E8 
Residual Degree Of Freedom Null: 17378 
Deviance: 3.886235458383082E8 

Residual Degree Of Freedom: 17366 


AIC: 223399.95490762248 
Deviance Residuals: 


| 32.385412453563546| 
| 59.50791859941151 
| 34.98037491140896| 
1-13.5034504690224321 
1-27.0059544406590321 
1-30.197952952158246| 
| -7.0396568616837781 
17.320193923055445 | 

-26.01597032720541 
-48.691662471162181 
-29.509849675849551 
20.5202221927420041 
1.6551311183207815 | 
1-28.5243736746652131 
1-16.3379358528418381 
| 6.4419239043100451 
| 9.910725454921931 
1-23.418896074866524| 
1-37.870797650696346 | 
1-37.373301622332946| 


only showing top 20 rows 
关于 如 何 解 读 结果 ， 请 参见 前 面 的 “广义 线性 回归 ”部 分 。 


完整 代码 位 于 : 
i https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 07/scala/ 





2.0.0/scala-spark-app/src/main/scala/org/sparksamples/regression/bikesharing/ 
DecisionTreeRegressionPipeline.scala。 


7.4.3 决策 树 集成 


集成 (ensemble ) 是 一 种 机 器 学 习 算 法 ， 它 会 创建 一 个 由 多 种 基础 模型 构成 的 模型 。Spark 
支持 两 种 主要 的 集成 算法 : 随机 森林 和 梯度 提升 树 。 
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1. 随机 森林 回归 模型 
随机 森林 是 由 若干 决策 树 集成 而 构成 的 。 如 决策 树 一 样 ， 随 机 森林 也 能 处 理 类 别 特征 、 支 持 
多 分 类 日 不 需要 特征 缩放 。 


如 下 代码 定义 了 两 种 方法 ,分 别 按 8 : 2 和 7 :3 的 比例 ， 将 bike sharing 数据 集 分 为 训练 和 
测试 用 数据 集 ， 借 助 Spark 中 的 回归 评估 用 RandomForestRegressor 来 创建 模型 ， 并 在 测试 
数据 集 上 得 到 各 评估 指标 。 


object RandomForestRegressionpPipeline { 
































@transient lazy val logger = Logger.getLogger (getClass.getName) 


def randForestRegressionWithVectorFormat (vectorAssembler: VectorAssembler 
, VectorIindexer: Vectorindexe 
， dataFrame: DataFrame) = { 
val lr = new RandomForestRegressor() 
.SetFeaturesCol ("features") 
.SetLabelCol ("label") 


val pipeline = new Pipeline().setStages (Array (vectorAssembler, vectorIindexer, 1r)) 
val Array (training, test) = dataFrame.randomSplit (Array (0.8, 0.2), seed = 12345) 
val model = pipeline.fit (training) 


// 进行 预测 
val predictions = model.transform(test) 


// 选择 用 于 显示 的 样本 行 


predictions.select ("prediction", "label", "features").show!(5) 


// 选择 (预测 值 ， 真 实 值 ) 对 ， 并 计算 测试 误差 
val evaluator = new RegressionEvaluator() 
.SetLabelCol ("label") 
.SetPredictionCol ("prediction") 
.SetMetricName ("rmse") 
val rmse = evaluator.evaluate (predictions) 
println("Root Mean Squared Error (RMSE) on test data = " + rmse) 


val treeModel = model.stages(1) .asInstanceOf [RandomForestRegressionModel] 
println("Learned regression tree model:\n" + treeModel .toDebugString) 


def randForestRegressionWithSVMFormat (spark: SparkSession) = { 
// 载 入 训练 数据 
val training = spark.read.format ("libsvm") 
.load("/Users/manpreet.singh/Sandbox/codehub/github/machinelearning/spark-ml/" + 
"Chapter_07/scala/2.0.0/scala-spark-app/src/main/scala/org/sparksamples/" + 
"regression/dataset/BikeSharing/lsvmHours .txt") 
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} 


// 自动 标识 类 别 特征 ， 并 建立 索引 
// 设置 maxCategories 的 值 ， 使 得 有 4 个 以 上 不 同 取 值 的 特征 被 视 为 连续 特征 
val featureIndexer = new VectorIndexer() 

.SetInputCol ("features") 

.SetOutputCol ("indexedFeatures") 

.SetMaxCategories (4) 

.fit (training) 


// 将 数据 按 7 : 3 分 为 训练 和 测试 数据 
val Array (trainingData, testData) = training.randomSplit (Array (0.7, 0.3)) 


// 训练 一 个 RandomForest 模型 

val rf = new RandomForestRegressor() 
.SetLabelCol ("label") 
.SetFeaturesCol ("indexedFeatures") 


// 将 Indexer 和 上 述 模 型 衔接 到 一 个 Pipeline 中 
val pipeline = new Pipeline() 
.SetStages (Array (featureIndexer, rf)) 


// 训练 模型 。 这 同样 会 触发 Indexer 的 运行 
val model = pipeline.fit (trainingData) 


// 进行 预测 


val predictions = model.transform(testData) 


// 选择 用 于 显示 的 样本 行 


predictions.select ("prediction", "label", "features").show!(5) 


// 选择 (预测 值 ， 真 实 值 ) 对 ， 并 计算 测试 误差 
val evaluator = new RegressionEvaluator () 
.SetLabelCol ("label") 
.SetPredictionCol ("prediction") 
.SetMetricName ("rmse") 
val rmse = evaluator .evaluate (predictions) 
println("Root Mean Squared Error (RMSE) on test data = " + rmse) 


val rfModel = model.stages(1) .asInstanceOf [RandomForestRegressionModell] 
println("Learned regression forest model:\n" + rfModel.toDebugString) 





对 应 的 输出 为 : 


RandomForest: init: 2.114590873 

total: 3.343042855 

findsplits: 1.387490192 

findBestSplits: 1.191715923 

chooseSplits: 1.176991821 

+------------------ +----- +-------------------- + 


prediction|label| features| 


+------------------ +----- +-------------------- 十 


70.75171441904584| 1.0 |1(12,[0,1,2,3,4,5,...| 
53.43733657257549| 1.0 1(12,[0,1,2,3,4,5,...| 
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| 57.18242812368521| 1.0 |1(12,[0,1,2,3,4,5,...| 
| 49.73744636247659| 1.0 |1(12,[0,1,2,3,4,5,...| 
156.433579398691144| 1.0 1(12,[0,1,2,3,4,5,...| 
Root Mean Squared Error (RMSE) on test data = 123.03866156451954 
Learned regression forest model: 
RandomForestRegressionModel (uid=rfr bd974271ffe6) with 20 trees 
Tree 0 (weight 1.0): 
If (feature 9 <= 40.0) 
If (feature 9 <= 22.0) 
If (feature 8 <= 13.0) 
If (feature 6 in {0.0}) 
If (feature 1 in {0.0}) 
Predict: 35.0945945945946 
Else (feature 1 not in {0.0}) 
Predict: 63.3921568627451 
Else (feature 6 not in {0.0}) 
If (feature 0 in {0.0,1.0}) 
Predict: 83.05714285714286 
Else (feature 0 not in {0.0,1.0}) 
Predict: 120.76608187134502 
Else (feature 8 > 13.0) 
If (feature 3 <= 21.0) 
If (feature 3 <= 12.0) 
Predict: 149.56363636363636 
Else (feature 3 > 12.0) 
Predict: 54.73593073593074 
Else (feature 3 > 21.0) 
If (feature 6 in {0.0}) 
Predict: 89.63333333333334 
Else (feature 6 not in {0.0}) 
Predict: 305.6588235294118 


上 述 代 码 使 用 各 个 特征 及 不 同 的 值 来 创建 一 个 决策 树 。 


完整 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 07/scala/ 
2.0.0/scala-spark-app/src/main/scala/org/sparksamples/regression/bikesharing/ 


RandomForestRegressionPipeline.scala。 
2. 梯度 提升 树 回 归 


梯度 提升 树 是 决策 树 的 集成 。 它 以 最 小 化 损失 函数 为 目标 ， 迭代 式 地 训练 决策 树 。 它 支持 处 
理 类 别 特征 、 支 持 多 分 类 且 不 需要 特征 缩放 。 


Spark MLlib 借助 现 有 的 决策 树 实现 来 实现 梯度 提升 树 ， 并 同时 支持 分 类 和 回归 。 


如 下 代码 分 别 定 义 了 两 种 方法 ， 分 别 按 8 : 2 和 7 :3 的 比例 ， 将 bike sharing 数据 集 分 为 训 
练 和 测试 用 数据 集 ， 并 在 测试 数据 集 上 得 到 各 评估 指标 。 
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object GradientBoostedTreeRegressorPipeline { 
@transient lazy val logger = Logger.getLogger (getClass.getName) 


def gbtRegressionWithVectorFormat (vectorAssembler: VectorAssembler, vectorIindexer: 
VectorIndexer, dataFrame: DataFrame) = { 
val lr = new GBTRegressor() 
.SetFeaturesCol ("features") 
.SetLabelCol ("label") 
.SetMaxIter (10) 


val pipeline = new Pipeline().setStages (Array (vectorAssembler, vectorIindexer, 1r)) 
val Array (training, test) = dataFrame.randomSplit (Array (0.8, 0.2), seed = 12345) 
val model = pipeline.fit (training) 


// 进行 预测 


val predictions = model.transform(test) 





// 选择 用 于 显示 的 样本 行 


predictions.select ("prediction", "label", "features").show(5) 


// 选择 (预测 值 ， 真 实 值 ) 对 ， 并 计算 测试 误差 
val evaluator = new RegressionEvaluator () 
.SetLabelCol ("label") 
.SetPredictionCol ("prediction") 
.SetMetricName ("rmse") 
val rmse = evaluator.evaluate (predictions) 
println("Root Mean Squared Error (RMSE) on test data = " + rmse) 





val treeModel = model.stages(1) .asInstanceOf [GBTRegressionModel] 
println("Learned regression tree model:\n" + treeModel .toDebugString) 


def gbtRegressionWithSVMFormat (spark: SparkSession) = { 
// 载 入 训练 数据 
val training = spark.read.format ("libsvm") 
.load("/Users/manpreet .singh/Sandbox/codehub/github/machinelearning/spark-ml/" + 
"Chapter_07/scala/2.0.0/scala-spark-app/src/main/scala/org/sparksamples/" + 
"regression/dataset/BikeSharing/lsvmHours .txt") 


// 自动 识别 类 别 特征 ， 并 建立 索引 
// 设置 maxCategories 的 值 ， 使 得 有 4 个 以 上 不 同 取 值 的 特征 被 视 为 连续 特征 
val featureIndqexer = new VectorIndexer () 

.SetInputCol ("features") 

.SetOutputCol ("indexedFeatures") 

.SetMaxCategories (4) 

Eat(Grainrng) 


// 将 数据 按 7 : 3 分 为 训练 和 测试 数据 集 
val Array (trainingData, testData) = training.randomSplit (Array (0.7, 0.3)) 


// 训练 一 个 GBT 模型 
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val gbt = new GBTRegressor () 
.SetLabelCol ("label" 
.SetFeaturesCol ("indexedFeatures") 
.SetMaxIter (10) 


// 将 Indexer 和 GBT 模型 衔接 到 一 个 Pipeline 中 
val pipeline = new Pipeline() 
.SetStages (Array (featureIndexer, gbt)) 


// 训练 模型 。 这 同样 会 触发 Indexer 的 运行 
val model = pipeline.fit (trainingData) 


// 进行 预测 
val predictions = model.transform(testData) 


// 选择 用 于 显示 的 样本 行 


predictions.select ("prediction", "label", "features").show(5) 


// 选择 (预测 值 ， 真 实 值 ) 对 ， 并 计算 测试 误差 
val evaluator = new RegressionEvaluator () 
.SetLabelCol ("label" 
.SetPredictionCol ("prediction") 
.SetMetricName ("rmse") 
val rmse = evaluator.evaluate (predictions) 
printiln("Root Mean Squared Error (RMSE) on test data = " + rmse) 


val gbtModel = model.stages(1) .asInstanceOf [GBTRegressionModel] 
println("Learned regression GBT model:\n" + gbtModel .toDebugString ) 


+ 
其 输出 如 下 : 


RandomForest: init: 1.366356823 
total: 1.883186039 

findsplits: 1.0378687 
findBestSplits: 0.501171071 
ChooseSplits: 0.495084674 


+------------------- +----- +-------------------- + 
1 prediction|label| features| 
+------------------- +----- +-------------------- 十 
1-20.7537423488143521 1.0 |1(12,[0,1,2,3,4,5,...| 
1-20.760717579684087| 1.0 |1(12,[0,1,2,3,4,5,...| 
| -17.73182527714976| 1.0 |1(12,[0,1,2,3,4,5,...| 
| -17.73182527714976| 1.0 |1(12,[0,1,2,3,4,5,...| 
| -21.3970940713621 1.0 1(12,[0,1,2,3,4,5,...| 
+------------------- +----- +-------------------- + 


only showing top 5 rows 
Root Mean Squared Error (RMSE) on test data = 73.62468541448783 
Learned regression GBT model: 
GBTRegressionModel (uid=gbtr 24c6ef8f52a7) with 10 trees 
Tree 0 (weight 1.0): 
If (feature 9 <= 41.0) 
If (feature 3 <= 12.0) 
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IE (feature 3 <= 3.0) 
IE (feature 3 <= 2.0) 
IE (feature 6 in {1.0}) 
Predict: 24.50709219858156 
Else (feature 6 not in {1.0}) 
Predict: 74.94945848375451 
Else (feature 3 > 2.0) 
If (feature 6 in {1.0}) 
Predict: 122.1732283464567 
Else (feature 6 not in {1.0}) 
Predict: 206.3304347826087 
Else (feature 3 > 3.0) 
If (feature 8 <= 18.0) 
If (feature 0 in {0.0,1.0}) 
Predict: 137.29818181818183 
Else (feature 0 not in {0.0,1.0}) 
Predict: 257.90157480314963 


完整 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 07/scala/ 
0 2.0.0/scala-spark-app/src/main/scala/org/sparksamples/regression/bikesharing/ 
GradientBoostedTreeRegressorPipeline.scala 


7.5 ”改进 模型 性 能 和 参数 调 优 


在 第 6 章 中 , 我 们 展示 了 特征 转换 和 选择 对 模型 性 能 有 巨大 的 影响 。 本 章 将 重点 讨论 另外 一 
种 变换 方式 : 对 目标 变量 进行 变换 。 








7.5.1 变换 目标 变量 


许多 机 器 学 习 模 型 都 会 对 输入 数据 和 目标 变量 的 分 布 做 出 假设 , 比如 线性 模型 的 假设 为 满足 
正 态 分 布 O 


但 是 在 许多 实际 情况 中 , 线性 回归 的 这 种 分 布 假设 并 不 成 立 ， 比 如 本 例 中 自行 车 被 租 的 次 数 
永远 不 可 能 为 负 。 这 也 表明 正 态 分 布 的 假设 存在 问题 。 为 了 更 好 地 理解 目标 变量 的 分 布 , 通常 最 
好 的 方法 是 画 出 目标 变量 的 分 布 直方 图 。 


下 面 的 代码 绘制 了 目标 变量 的 分 布 图 : 


object PlotRawData { 



































def main(args: Array[lString]) { 
val records = Util.getRecords()._1 
val records x = records.map(r => rl(r.length - 1)) 
Var records_int = new Array[Int] (records x.collect().length) 
print (records_x.first()) 
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Val records_collect = Tecoras_X.collect() 


for (i <- 0 until] records_ collect.length) { 


records_int(i) = records_collect (i) .toInt 
} 
val min 1 = records_ int.min 
val max_1 = records_int.max 


val min = min 1 

val max = max_ 1 

val bins = 40 

val step = (max / bins).toInt 


var mx = Map(0 -> 0) 
for (i <- step until (max + step) by step) { 
mx += (i -> 0); 


for (i <- 0 until] records_ collect.length) { 
for (j <- 0 until (max + step) by step) { 
if (records_int(i) >= (j) && records_int(i) < (j + step)) { 
print (mx(j)) 
print (mx) 
mx = mx + (j -> (mx(j) + 1)) 


} 

val mx_sorted = ListMap (mx.toSeq.sortBy(_._1): _*) 

val ds = new org.jfree.data.category.DefaultCategoryDataset 
var ,TE 0 

mx_sorted.foreach { case (k, Vv) => ds.addValuel(v, "", k) } 


val chart = ChartFactories.BarChart (ds) 
val font = new Font ("Dialog", Font.PLAIN, 4); 


chart .peer.getCategoryPlot .getDomainAxis(). 
setCategoryLabelPositions (CategoryLabelPositions.UP_ 90) ; 

chart .peer.getCategoryPlot.getDomainAxis.setLabelFont (font) 

chart .show() 

Util.sc.stop() 





} 
其 输出 如 下 图 所 示 : 
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绘制 原始 数据 的 代码 位 于 : 
各 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 07/scala/1.6.2/ 
scala-spark-app/src/main/scala/org/sparksamples/PlotRawData.scala, 


一 种 处 理 这 种 饱和 的 方法 是 对 目标 变量 进行 变换 , 取 目 标 变量 的 对 数值 而 不 是 原始 值 。 这 种 
方法 常 称 为 对 数 变 换 ( 该 转换 也 能 应 用 于 各 特征 值 )。 
， 


下 面 的 代码 对 目标 变量 进行 对 数 变换 ， 并 画 出 对 数 变 换 后 的 直方 图 : 
object PlotLogData { 


def main(args: Array[String]) { 
val records = Util.getRecords()._1 
val records x = records.map(r => Math.log(r(r.length - 1) .toDouble)) 
Var records_int = new Array[InL] (records_x.collect().length) 
print (records_ x.first()) 
Val records_collect = records. x.collect () 


for (i <- 0 until records_collect.length) { 


records_int (i) = records_collect (i) .toInt 
} 
val min 1 = records_ int.min 
val max_1 = records_int.max 


val min = min_1.toFloat 

Val max ="max .torloat 

val bins = 10 

val step = (max / bins) .toFloat 


Var mx = Map(0.0.toString -> 0) 
for (i <- step until (max + step) by step) { 
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mx += (i.toString -> 0); 


for (i <- 0 until] records_collect.length) { 
for (j <- 0.0 until (max + step) by step) { 
if (records_int(i) >= (j) && records_int(i) < (j + step)) { 
mx = mx + (j.toString -> (mx(j.toSstring) + 1)) 


} 


val mx_sorted = ListMap(mx.toSeq.sortBy(_._1.toFloat): _*) 
val ds = new org.jfree.data.category.DefaultCategoryDataset 
var i = 0 

mx_sorted.foreach { case (k, Vv) => ds.addValuel(v, "", k) } 


val chart = ChartFactories.BarChart (ds) 
val font = new Font ("Dialog", Font.PLAIN, 4); 


chart .peer.getCategoryPlot.getDomainAxis(). 
setCategoryLabelPositions (CategoryLabelPositions.UP_ 90); 

chart .peer.getCategoryPlot.getDomainAxis.setLabelFont (font) 

chart .Show() 

Util.sc.stop() 
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另外 一 种 有 用 的 变换 是 取 平 方 根 ， 适 用 于 目标 变量 不 为 负数 并 且 值 域 很 大 的 情况 。 
下 面 的 Scala 代码 对 所 有 的 目标 变量 取 平方 根 ， 然 后 绘 出 相应 的 直方 图 : 
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object PlotLogData { 


def main(args: Array[lString]) { 
val records = Util.getRecords()._1 
val records x = records.map(r => Math.log(r(r.length - 1) .toDouble)) 
Var records_int = new Array[Int] (records x.collect().length) 
print (records_ x.first()) 
val records,_collect = records._ x.collect () 


for (i <- 0 until records_collect.length) { 


records_int(i) = records_collect (i) .toInt 
} 
val min 1 = records_int.min 
val max_1 = records_int.max 


val min = min 1.toFloat 

val max = max_1.toFloat 

val bins = 10 

val step = (max / bins) .toFloat 


var mx = Map(0.0.toString -> 0) 
for (i <- step until (max + step) by step) { 
mx += (i.toString -> 0); 


for (i <- 0 until records_collect.length) { 
for (j <- 0.0 until (max + step) by step) { 
if (records_int(i) >= (j) && records_int(i) < (j + step)) { 
mx = mx + (j.toString -> (mx(j.toString) + 1)) 





} 


val mx_sorted = ListMap (mx.toSeq.sortBy(_._1.toFloat): _*) 
val ds = new org.jfree.data.category.DefaultCategoryDataset 
var i = 0 

mx_sorted.foreach { case (k, v) => ds.addValuel(v, "", k) } 


val chart = ChartFactories.BarChart (ds) 
val font = new Font ("Dialog", Font.PLAIN, 4); 


chart .peer.getCategoryPlot .getDomainAxis(). 
setCategoryLabelPositions (CategoryLabelPositions.UP_ 90); 

chart .peer.getCategoryPlot.getDomainAxis.setLabelFont (font) 

chart .show() 

Util.sc.stop() 








} 


从 对 数 和 平方 根 变换 后 的 结果 来 看 ,得 到 的 直方 图 ( 见 下 图 ) 都 比 原始 数据 更 均匀 。 虽 然 这 
两 个 分 布依 然 不 是 正 态 分 布 ， 但 是 已 经 比 原始 目标 变量 更 接近 正 态 分 布 了 。 
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对 数 变 换 的 影响 


那 这 些 变 换 对 模型 性 能 有 哪些 影响 ?下 面 用 之 前 提 到 的 指标 来 衡量 下 , 但 这 里 会 对 数据 做 对 


先 来 看 一 下 线性 模型 。 具 体会 对 每 个 LabeledPoint RDD 的 1abel 列 应 用 对 数 函 数 。 这 
里 只 对 目标 变量 做 变换 ， 不 对 任何 特征 做 变换 。 


下 面 将 在 这 个 转换 后 的 数据 集 上 训练 模型 ， 并 生成 一 个 (预测 值 ， 真 实 值 ) 对 构成 的 RDD。 


注意 我 们 变换 了 目标 变量 ， 模 型 得 到 的 预测 值 也 是 取 对 数 的 值 。 因 此 ， 为 了 评估 模型 性 能 ， 
需要 将 进行 指数 运算 计算 得 到 的 预测 值 转换 回 原始 的 值 ， 这 里 用 Math .exp () 实现 。 


最 后 会 计算 模型 的 MSE、MAE 和 RMSE 指标 。 


Scala 代码 如 下 : 






































object LinearRegressionWithLog { 


def main(args: Array[String]) { 


val recordsArray = Util.getRecords() 
Val records = recordsArray._1 

val first = records.first() 

val numData = recordsArray._2 


printlin (numData.toString()) 
records.cache() 
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print ("Mapping of first categorical feature column: " 
+ Util.get_ mapping (records, 2)) 

Var list = new ListBuffer[MaplString, Long]]() 

for (1 .<= 2 to: 9), € 
val m = Util.get_ mapping (records, i) 
list += m 

} 

val mappings = list.toList 

var catLen = 0 

mappings.foreach(m => (catLen += m.size)) 





val numLen = records.first().slice(11, 15).size 
val totalLen = catLen + numLen 


print ("Feature Vector length for categorical features:" + catLen) 
print ("Feature vector length for numerical features:" + numLen) 
print ("Total feature vector length: " + totalLen) 


val data = { 
records.map(r => LabeledPoint (Math.1log (Util.extractLabel (r)) 
,， Util.extractFeatures (r, catLen, mappings))) 
} 


val first_ point = data.first() 





println("Linear Model feature vector:" + first point.features.toString) 
println("Linear Model feature vector length: " + first point.features.size) 
val iterations = 10 

val step = 0.025 

val intercept = true 


// LinearRegressionWithSsGD.tr 

val linear_ model = LinearRegressionWithSsGD.train(data, iterations, step) 
val x = linear model.predict (data.first().features) 

val true vs predicted = data.map(p => (Math.exp(p.label) 

, Math.exp (linear_ model .predict (p.features)))) 

Val true_vs_ predicted csv = data.map(p => p.label + " ," 

+ linear_ model .predict (p.features)) 

val format = new java.text.SimpleDateFormat ("dd-MM-yyyy-hh-mm-ss") 

val date = format .format (new java.util.Date()) 

val Save = false 

if (save) { 

true_vs_predicted csv.saveAsTextFile("./output/linear model " + date + ".csv") 








Val true_vs_predicted take5 = true vs_predicted.take(5) 
foxw (i.<= 0 Until 5Y 

println("True vs Predicted: " + "i :" + true vs_ predicted take5 (i)) 
} 


Util.calculatepPrintMetrics(true vs_predicted, "LinearRegressioWithSGD Log") 


} 
代码 输出 如 下 : 
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DinearRegressioWithSGD Log - Mean Squared Error: 5055.089410453301 
LinearRegressioWithSGD Log - Mean Absolute Error: 51.56719871511336 
LinearRegressioWithSGD Log - Root Mean Squared Log 
Error:1.7785399629180894 


相应 代码 位 于 : 
口 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 07/scala/2.0.0/ 
scala-spark-app/src/main/scala/org/sparksamples/regression/linearregression/Linear- 


a Regression WithLog.scala 
DQ https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 07/scala/2.0.0/ 
scala-spark-app/src/main/scala/org/sparksamples/regression/linearregression/Linear- 
Regression.scala 


如 果 将 上 述 结果 和 使 用 原始 目标 变量 时 的 结果 相 比 ， 会 发 现 3 个 指标 均 变 差 了 : 


LinearRegressioWithsGD - Mean Squared Error: 35817.9777663029 

LinearRegressioWithSsGD - Mean Absolute Error: 136.94887209426008 

LinearRegressioWithsGD - Root Mean Squared Log Error: 
1.4482391780194306 

LinearRegressioWithSGD Log - Mean Squared Error: 60192.54096079104 

LinearRegressioWithSsSGD Log - Mean Absolute Error: 
170.82191606911752 

LinearRegressioWithSGD Log - Root Mean Squared Log Error: 
1.9587586971094555 








7.5.2 ”模型 参数 调 优 


到 目前 为 止 , 本 章 谈论 了 在 同一 个 数据 集 上 对 MLlib 中 的 回归 模型 进行 训练 和 评估 的 基本 概 
接 下 来 ， 我 们 使 用 交叉 验证 方法 来 评估 不 同 参 数 对 模型 性 能 的 影响 。 


1. 创建 训练 集 和 测试 集 来 评估 参数 
第 一 步 是 为 交叉 验证 创建 训练 集 和 测试 集 。 


在 Scala 中 ， 这 种 分 割 不 难 实现 ， 男 外 还 有 一 个 现成 的 randomSplit 函数 来 实现 该 功能 : 








val splits = data.randomSplit (Array (0.8, 0.2), seed = 11L) 
val training = splits(0).cache() 
val test = splits(1) 


2. 分 割 决策 树 中 的 特征 
最 后 一 步 是 用 同样 的 方法 来 分 割 从 决策 树 模 型 中 提取 到 的 特征 
Scala 代码 如 下 : 




















T 








oO 


7.5 改进 模型 性 能 和 参数 调 优 243 





val splits = data dt.randomSplit (Array (0.8, 0.2), seed = 11L) 
val training = splits(0).cache() 
val test = splits(1) 


3. 参数 设置 对 线性 模型 的 影响 


前 面 已 经 准备 好 了 训练 集 和 测试 集 , 现在 可 以 研究 不 同 的 参数 设置 对 模型 性 能 的 影响 了 。 下 
面 先 研究 参数 设置 对 线性 模型 的 影响 。 为 此 会 创建 一 个 辅助 函数 来 评估 不 同 参数 设置 下 , 模型 经 
训练 集训 练 后 ， 在 测试 集 数 据 上 的 各 种 性 能 指标 。 


我 们 会 使 用 RMSLE 来 评估 。 它 是 Kaggle 比赛 中 在 该 数据 集 上 使 用 的 指标 , 这 样 , 我 们 可 以 
将 我 们 模型 的 结果 和 比赛 排行 榜 上 的 成 绩 相 比较 。 


评估 函数 的 Scala 定义 如 下 : 


def evaluate(train: RDDI[LabeledPoint], test: RDD[LabeledPoint] 
,， iterations: Int, step: Double 
,， intercept: Boolean): Double = { 
val linReg = new LinearRegressionWithSGD() .setIntercept (intercept) 
linReg.optimizer.setNumIterations (iterations) .setStepSize (step) 
val linear model = linReg.run(train) 






































val true_vs_predicted = test 

.map(p => (p.label, linear_ model.predict (p.features))) 
val rmsle = Math.sqrt (true vs_predicted 

.map { case (t, p) => Util.squaredLogError(t, p) }.mean()) 
return rmsle 





在 接 下 来 的 几 节 中 ， 我 们 将 使 用 SGD 进行 选 代 训 练 。 随 机 初始 化 可 能 得 到 
略微 不 同 的 结果 ， 但 是 依然 可 比较 。 


(1) 迭代 次 数 


从 前 面 对 分 类 模型 的 评估 来 看 ， 通 常 在 使 用 SGD 训练 模型 的 过 程 中 ， 随 着 迭代 次 数 的 增加 
可 以 实现 更 好 的 性 能 , 但 是 性 能 在 迭代 次 数 达到 一 定数 目 时 会 提升 得 越 来 越 慢 。 下 面 的 代码 设置 
步 长 为 0.01， 目 的 是 为 了 更 好 地 说 明和 迭代 次 数 的 影响 。 


下 列 的 Scala 代码 中 使 用 了 不 同 的 迭代 次 数 : 


























val data = LinearRegressionUtil.getTrainTestData() 

val train data = data._1 

val test_data = data._2 

val iterations = 10 

// LinearRegressionCrossValidationSteps 

A/ params = [1, 5, 10; 20, 50, 100, -200] 

val iterations param = Array (1, 5, 10, 20, 50, 100, 200) 
val step = 0.01 

// val steps_param = Array (0.01, 0.025, 0.05, 0.1, 1.0) 
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val intercept = false 


Val 二 二 0 
val results = new Array[String]l (5) 
val resultsMap = new scala.collection.mutable.HashMap[String, String] 
val dataset = new DefaultCategoryDataset () 
for (i <- 0 until] iterations param.length) { 
val iteration = iterations_ param(i) 
val rmsle = LinearRegressionUtil 
.evaluate (train data, test_data, iteration, step, intercept) 
// results(i) = step + ":" + rmsle 
resultsMap.put (iteration.toString, rmsle.toString) 
dataset.addValue (rmsle, "RMSLE", Math.log(iteration)) 





Scala 的 实现 使 用 了 JFreeChart 对 应 的 Scala 版 本 。 该 实现 在 20 次 迭代 后 取 到 最 小 RMSLE: 


Map(5 -> 0.8403179051522236, 200 -> 0.35682322830872604, 50 -> 
0.07224447567763903, 1 -> 1.6381266770967882, 20 -> 
0.23992956602621263, 100 -> 0.2525579338412989, 10 -> 
0.5236271681647611) 


上 述 代 码 的 输出 如 下 图 所 示 : 


























LinearRegressionWithSGD : RMSLE vs lterations 
三 
Cr 
0.0 TBDis 坊 :Oi 2.99,,, gliv 4.60,,, 5.29,., 
lterations - Log Value 
(2) 步 长 
我 们 使 用 如 下 代码 对 步 长 进行 同样 的 分 析 。 
Scala 代码 如 下 : 


val steps_param = Array (0.01, 0.025, 0.05, 0.1, 1.0) 
val intercept =false 
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0 
val results = new Array[String]l (5) 
val resultsMap = new scala.collection.mutable.HashMap[String, String] 
val dataset = new DefaultCategoryDataset() 
for(i <- 0 until steps_ param.lengtnhn) { 
val step = steps_param(i) 
val rmsle = LinearRegressionUtil.evaluate(train data, 
test_data,iterations,step,intercept) 
resultsMap.put (step.toString,rmsle.toString) 
dataset.addValue (rmsle, "RMSLE", step) 
} 


该 代码 的 输出 如 下 : 


[1.7904244862988534, 1.4241062778987466, 1.3840130355866163, 
1.4560061007109475, nan] 


对 上 述 结果 的 可 视 化 如 下 图 所 示 : 





LinearRegressionWithSGD : RMSLE vs Steps 
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从 结果 可 以 看 出 为 什么 不 使 用 默认 步 长 来 训练 线性 模型 。 其 中 默认 步 长 为 1.0， 得 到 的 
RMSLE 结果 为 nan。 这 通常 意味 着 SGD 模型 收敛 到 了 一 个 非常 差 的 局 部 最 优 解 。 这 种 情况 在 步 
长 较 大 的 时 候 容 易 出 现 ， 原 因 是 算法 收敛 太 快 而 不 能 得 到 最 优 解 。 


男 外 ， 小 步 长 与 相对 较 小 的 迭代 次 数 ( 比如 上 面 的 10 次 ) 对 应 的 训练 模型 性 能 一 般 较 差 。 
而 较 小 的 步 长 与 较 大 的 迭代 次 数 下 通常 可 以 收敛 得 到 较 好 的 解 。 


通常 来 讲 , 步 长 和 迭代 次 数 的 设 定 需要 权衡 。 较 小 的 步 长 意味 着 收敛 速度 慢 , 需要 较 大 的 迭 
代 次 数 。 但 是 较 大 的 迭代 次 数 更 加 耗 时 ， 特 别 是 在 大 数据 集 上 。 
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选择 合适 的 参数 是 一 个 复杂 的 过 程 ,需要 在 不 同 的 参数 组 合 下 训练 模型 并 选 
择 最 好 的 结果 。 每 次 模型 的 训练 都 需要 迭代 ,这 个 过 程 计算 量 大 上 且 非常 耗 时 , 在 
大 数据 集 上 尤其 明显 。 模型 的 初始 化 对 结果 的 影响 也 很 大 , 具体 会 影响 取得 全 局 


最 小 值 和 取得 梯度 下 降 图 上 的 局 部 最 优 最 小 解 这 两 个 过 程 。 
(3) L2 正则 化 











第 6 章 提 到 过 ， 正 则 化 是 添加 一 个 关于 模型 权重 向 量 的 函数 作为 损失 项 ， 来 对 模型 的 复杂 度 
进行 惩罚 。 其 中 L2 正则 化 则 是 对 权重 向 量 进行 L2- 范 数 惩罚 ， 而 L1 正则 化 进行 L1- 范 数 惩 罚 。 











我 们 知道 ， 随 着 正则 化 的 提高 ， 训 练 集 的 预测 性 能 会 下 降 ， 因 为 模型 不 能 很 好 地 拟 合 数据 。 
但 是 , 我 们 和 希望 设置 合适 的 正则 化 参数 ,能够 在 测试 集 上 达到 最 好 的 性 能 ， 最 终 得 到 一 个 泛 化 能 
力 最 优 的 模型 。 














我 们 在 下 面 的 Python 代码 中 评估 不 同 L2 正则 化 参数 对 性 能 的 影响 : 


Darans- N00 OO0L; 55950057 

metrics = [evaluate(train data, test_data, 10, 0.1 
False) for param in params] 

print params 

print metrics 

plot (params, metrics) 

fa = matplotlLib,. pyYDLlOt 9eE 人 

pyplot.xscale('log') 


;. DAaray. "E22 


正如 前 面 所 分 析 的 ， 存 在 一 个 使 得 测试 集 上 RMSLE 性 能 最 优 的 正则 化 参数 : 


[0.0, 0.01, 0.1, 1.0, 5.0, 10.0, 20.0] 
[1.5384660954019971, 1.5379108106882864, 1.5329809395123755, 


1.4900275345312988, 1.4016676336981468, 1.40998359211149, 
1.5381771283158705] 


为 了 更 清晰 地 展示 结果 ， 我 们 使 用 下 图 ， 其 中 横 轴 的 正则 化 参数 进行 了 对 数 缩放 : 


























不 同 正 则 化 参数 下 的 性 能 
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(人 LI 正则 化 
以 下 Python 代码 使 用 同样 的 方法 测试 不 同 L1 正则 化 参数 对 性 能 的 影响 : 


params = E00 001 0 Ly .05. 0 T0087 HOO:Oi; T0000 

metrics = [evaluate(train data, test_data, 10, 0.1, param, '11', 
False) for param in params] 

print params 

print metrics 

plot (params, metrics) 

fig = matplotlib.pyplot.gcf() 

pyplot .xscale('log') 


同样 , 为 了 更 清晰 地 展示 结果 , 我们 使 用 如 下 图 片 。 从 图 中 可 以 看 到 , RMSELE 取 值 在 后 半 
部 有 一 个 十 分 平缓 的 下 降 。 之 后 随 着 params 取 值 增加 ， 有 一 个 极 大 的 跳跃 回升 。 所 需 的 LI1 正 
则 化 参数 比 L2 要 大 ， 但 是 总 体 性 能 较 差 。 

[0.0, 0.01, 0.1, 1.0, 10.0, 100.0, 1000.0] 

[1.5384660954019971，1.5384518080419873，1.5383237472930684， 


1.5372017600929164，1.5303809928601677，1.4352494587433793， 
4.7551250073268614] 
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不 同 的 LI 正则 化 参数 对 性 能 的 影响 


男 外 ,使 用 LI 正则 化 可 以 得 到 稀 朴 的 权重 向 量 。 为 了 在 本 例 中 验证 ， 我 们 来 统计 随 着 正则 
化 的 提高 ， 权 重 向 量 中 0 的 个 数 : 





model_11 = LinearRegressionWithSGD.train(train data, 10, 0.1 





, regParam = 1.0, regType = '11 ', intercept = False) 
model_11 10 = LinearRegressionWithSsSGD.train(train data, 10, 0.1 
, regParam = 10.0, regType = '11 ', intercept = False) 
model_11_ 100 = LinearRegressionWithSGD.train(train data, 10, 0.1 
, regParam = 100.0, regType = '11 ', intercept = False) 
print "L1 (1.0) number of zero weights: " 
+str(sum(model_l1l1.weights.array == 0)) 
print "L1 (10.0) number of zeros weights: " 
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+str(sum(model_]11_ 10.weights.array == 0)) 
print "L1 (100.0) number of zeros weights: " 
+Sstr(sum(model_11_ 100.weights.array == 0)) 


从 下 面 的 结果 可 以 看 出 ， 和 我 们 预料 的 一 致 ， 随 着 L1 的 正则 化 参数 越 来 越 大 ， 模 型 的 权重 





向 量 中 0 的 数目 也 越 来 越 大 。 


L1 (1.0) number of zero weights: 4 
L1 (10.0) number of zeros weights: 20 
L1 (100.0) number of zeros weights: 55 


(5) 截 距 








线性 模型 最 后 可 以 设置 的 参数 表示 是 否 拟 合 截 距 (intercept )。 截 距 是 添加 到 权重 向 量 的 常数 
项 ， 可 以 有 效 地 影响 目标 变量 的 均值 。 如 果 数 据 已 经 被 归 一 化 ， 截 距 则 没有 必要 。 但 是 理论 上 ， 








截 距 的 使 用 并 不 会 带 来 坏处 。 
下 面 的 Scala 代码 用 来 评估 截 距 项 对 模型 的 影响 : 





object LinearRegressionCrossValidationIntercept { 
def main(args: Array[String]) { 
val data = LinearRegressionUtil.getTrainTestData() 
val trairir data :data: ol 
val test_data = data._2 


val iterations = 10 
val step = 0.1 
val paramsArray = new Array [Boolean] (2) 


paramsArray (0) = false 
paramsArray (1) = true 
val i = 0 


val results = new Array[String] (2) 
val resultsMap = new scala.collection.mutable.HashMap[String, String] 
val dataset = new DefaultCategoryDataset() 
for (i <- 0 until 2) { 
val intercept = paramsArray (i) 
val rmsle = LinearRegressionUtil 
.evaluate (train data, test_data, iterations, step, intercept) 
results(i) = intercept + ":" + rmsle 
resultsMap.put (intercept.toString, rmsle.toString) 
dataset.addValue (rmsle, "RMSLE", intercept.toString) 


val chart = new LineChart\( 


"Intercept", 
"LinearRegressionWithSGD : RMSLE vs Intercept") 
chart .exec("Steps", "RMSLE", dataset) 


chart.lineChart .getCategoryPlot() .getRangeAxis() .setRange(1.56, 1.58) 
chart .pack () 


RefineryUtilities.centerFrameOnScreen (chart) 
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chart.setVisible(true) 


println(results) 


} 
上 述 输出 对 应 的 可 视 化 效果 如 下 图 所 示 : 





LinearRegressionWithSGD : RMSLE vs Intercept 
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从 上 图 可 知 ， 当 ijntercept=true 时 对 应 的 RMSLE 比 intercept=false 时 上 略 高 。 











上 述评 估 函 数 、 和 迭代 和 步 进 部 分 的 代码 均 位 于 如 下 目录 内 : 
https://github.com/ml-resources/spark-ml/tree/branch-ed2/Chapter O07/scala/1.6.2/ 
时 scala-spark-app/src/main/scala/org/sparksamples/linearregression。 
它 分 别 对 应 LinearRegressionUtil.scala、LinearRegressionCrossValidationIterations. 
scala 和 LinearRegressionCrossValidationStep.scala 这 3 份 源码 。 


4. 参数 设置 对 决策 树 性 能 的 影响 


决策 树 提供 了 两 个 主要 的 参数 ; 最 大 的 树 深 度 和 最 大 分 块 数 。 下面 用 与 之 前 类 似 的 方法 来 评 
佑 不同 的 参数 下 决策 树 模 型 的 性 能 。 为 此 ， 首 先 需 要 创建 一 个 模型 的 评估 函数 ,这 与 之 前 线性 回 
归 模 型 中 使 用 的 相似 。 对 应 的 Scala 代码 如 下 : 


def evaluate (train: RDD[LabeledPoint], test: RDD[LabeledPoint], 
categoricalFeaturesInfo: scala.Predef.MaplIint, Int], 
maxDepth: Int, maxBins: Int): Double = { 
val impurity = "variance" 
val decisionTreeModel = DecisionTree 
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.trainRegressor (train, categoricalFeaturesInfo, impurity, maxDepth, maxBins) 


val true_ vs_predicted = test 

.map(p => (p.label, decisionTreeModel .predict (p.features))) 
val rmsle = Math.sqrt (true vs_predicted 

.map { case (t, p) => Util.squaredLogError(t, p) }.mean()) 
return rmsle 


} 
(1) 树 深度 


我 们 通常 希望 用 更 复杂 ( 更 深 ) 的 决策 树 提升 模型 的 性 能 。 而 较 小 的 树 深 度 类 似 正则 化 形式 ， 
如 线性 模型 的 L2 和 LI 正则 化 ， 存 在 一 个 最 优 的 树 深度 能 在 测试 集 上 获得 最 优 的 性 能 。 


下 面 ， 我 们 尝试 增加 树 的 深度 ， 测 试 树 的 深度 对 测试 集 上 RMSLE 性 能 的 影响 ， 固 定 划 分 数 
为 默认 值 32。 


Scala 代码 如 下 : 


























val data = DecisionTreeUtil.getTrainTestData() 
val train aqata = data._1 
val test_data = data._2 
val iterations = 10 
/YY “params = [2 4 8 L6. 2 -64 LO00 
/val Steps. param = "Rrray (0 0, “0.025 O00 O01 "41703 
// DecisionTreeMaxBinss params = [1, 2, 3, | | 
val bins_param = Array (2, 4, 8, 16, 32, 64, 100) 
val depth param = Array(l1l, 2, 3, 4, 5, 10, yg 
// val maxDepth = 5 
val bin = 32 
val categoricalFeaturesInfo = scala.Predef.Mapl[lIint, Int]() 
val i = 0 
val results = new Array[String] (7) 
val resultsMap = new scala.collection.mutable.HashMap[String, String] 
val dataset = new DefaultCategoryDataset () 
for (i <- 0 until depth param.length) { 
val depth = depth param(i) 
val rmsle = DecisionTreeUtil.evaluate(train data, test_data 
,， CategoricalFeaturesInfo, depth, bin) 
resultsMap.put (depth.toString, rmsle.toString) 
dataset.addValue (rmsle, "RMSLE", depth) 
} 


val chart = new LineChart( 

"MaxDepth", 

"DecisionTree : RMSLE vs MaxDepth") 
chart .exec ("MaxDepth", "RMSLE", dataset) 
chart .pack () 





RefineryUtilities.centerFrameOnScreen (chart) 
chart .setVisible (true) 
print (resultsMap) 


上 述 结果 的 可 视 化 效果 如 下 图 所 示 : 
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DecisionTree : RMSLE vs MaxDepth 


RMSLE 











MaxDepth 








(2) 最 大 分 区 数 


最 后 来 评估 分 区 数 对 决策 树 性 能 的 影响 。 和 树 的 深度 一 样 ， 更 多 的 分 区 数 会 使 模型 变 复杂 ， 
并 且 有 助 于 提升 特征 维度 较 大 的 模型 的 性 能 。 分 区 数 达 到 一 定 程度 之 后 , 对 性 能 的 提升 帮助 不 大 ， 
实际 上 ， 由 于 过 拟 合 的 原因 会 导致 测试 集 的 性 能 变 差 。 


Scala 代码 如 下 : 


object DecisionTreeMaxBins { 
def main(args: Array[String]) { 


val data = DecisionTreeUtil.getTrainTestData() 
val train data = data._1 
val test_data = data._2 
val iterations = 10 
val bins_param = Array (2, 4, 8, 16, 32, 64, 100) 
val maxDepth = 5 
val categoricalFeaturesInfo = scala.Predef.Mapl[lIint, Int]() 
Va ry :0 
val results = new Array[String]l (5) 
val resultsMap = new scala.collection.mutable.HashMap[String, String] 
val dataset = new DefaultCategoryDataset () 
for (i <- 0 until bins_param.length) { 

val bin = bins_param(i) 

val rmsle = { 

DecisionTreeUtil 
.evaluate(train data, test_ data, categoricalFeaturesInfo, 5, bin) 





resultsMap.put (bin.toString, rmsle.toString) 
dataset.addValue (rmsle, "RMSLE", bin) 
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} 


val chart = new LineChart( 








"MaxBins", 

"DecisionTree : RMSLE vs MaxBins") 
chart .exec ("MaxBins", "RMSLE", dataset) 
chart .pack () 


RefineryUtilities.centerFrameOnScreen (chart) 
chart .setVisible (true) 
print (resultsMap) 
} 
} 


对 应 输出 的 可 视 化 效果 如 下 图 所 示 : 





DecisionTree : RMSLE vs MaxBins 


RMSLE 











2 4 8 16 32 64 100 
MaxBins 


从 中 可 看 出 ， 本 例 中 使 用 小 分 区 数目 会 有 损 性 能 ， 而 当 分 区 数目 达到 30 后 对 性 能 几乎 没有 
影响 。 从 结果 中 来 看 ， 最 优 的 分 区 数 配 置 范围 在 16-20 以 内 。 


上 述 各 参数 设置 对 应 的 代码 均 位 于 如 下 目录 内 : 
https://github.com/ml-resources/spark-ml/tree/branch-ed2/Chapter 07/scala/1.6.2/ 


Oo scala-spark-app/src/main/scala/org/sparksamples/decisiontree。 
它 分 别 对 应 DecisionTreeUtil.scala、DecisionTreeMaxDepth.scala 和 Decision- 


TreeMaxBins.scala 这 3 份 源码 。 
5. 参数 设置 对 梯度 提升 树 的 影响 


梯度 提升 树 有 3 个 主要 参数 : 迭代 次 数 iteration、 最 大 分 区 数 maxBins 和 最 大 树 深 
maxDepth。 下 面 看 下 它们 取 值 不 同时 的 影响 如 何 。 


(1) 迭代 次 数 
Scala 代码 如 下 : 
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object GradientBoostedTreesIterations { 


def main(args: Array[String]) { 
val data = GradientBoostedTreesUtil.getTrainTestData() 
val train data = data._1 
val test_data = data._2 


val iterations param = Array (1, 5, 10, 15, 18) 
val maxDepth = 5 
val maxBins = 16 


a 0 
val resultsMap = new scala.collection.mutable.HashMap[String, String] 
val dataset = new DefaultCategoryDataset () 
for (i <- 0 until iterations param.length) { 
val iteration = iterations_param(i) 
val rmsle = GradientBoostedTreesUtil 
.evaluate (train data, test_data, iteration, maxDepth, maxBins) 
resultsMap.put (iteration.toString, rmsle.toString) 
dataset.addValue (rmsle, "RMSLE", iteration) 








} 
val chart = new LineChart( 

Eteratnrorns.y 

"GradientBoostedTrees : RMSLE vs Iterations") 
chart .exec ("Iterations", "RMSLE", dataset) 
chart .pack () 


chart.lineChart .getCategoryPlot () .getRangeAxis() .setRange(1.32, 1.37) 
RefineryUtilities.centerFrameOnScreen (chart) 

chart.setVisible(true) 

print (resultsMap) 





} 
其 输出 可 视 化 的 效果 如 下 图 所 示 : 





GradientBoostedTrees : RMSLE vs Iterations 
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(2) 最 大 分 区 数 





下 面 看 下 不 同 的 最 大 分 区 数 对 RMSLE 值 的 影响 。 
下 面 的 Scala 代码 依次 取 最 大 分 区 数 10、16、32 和 64 来 评估 上 述 影响 : 


object GradientBoostedTreesMaxBins { 


def main(args 
val data = 





: Array[String]) { 


GradientBoostedTreesUtil.getTrainTestData() 


val train data = data._1 
Val test_data = data._2 


val maxBins_param = Array (10, 16, 32, 64) 
val iteration = 10 
val maxDepth = 3 


Val LE,0 


val resultsMap = new scala.collection.mutable.HashMap[String, String] 


val dataset 
for (i <- 0 


= new DefaultCategoryDataset () 
until maxBins_param.length) { 


val maxBin = maxBins_param(i) 


val rmsle 


= GradientBoostedTreesUtil 


.evaluate(train data, test_ data, iteration, maxDepth, maxBin) 
resultsMap.put (maxBin.toString, rmsle.toString) 
dataset.addValue (rmsle, "RMSLE", maxBin) 


} 
val Chart "es 
"Max Bin" 


new LineChart( 


’ 


"GradientBoostedTrees : RMSLE vs MaxBin") 


chart .exec ( 
chart .pack( 
chart.lineC 


"MaxBins", "RMSLE", dataset) 
) 
hart .getCategoryPlot () .getRangeAxis() .setRange(1.35, 


RefineryUtilities.centerFrameOnScreen (chart) 
chart .setVisible (true) 


print (resul 


} 


tsMap) 





对 应 的 结果 的 可 视 化 效果 如 下 图 所 示 : 


Le37) 
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GradientBoostedTrees : RMSLE vs MaxBin 
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(3) 最 大 树 深 
下 面 的 Scala 代码 分 别 求 了 4 种 不 同 的 maxBin 值 对 应 的 RMSLE 值 : 
object GradientBoostedTreesMaxDepth { 
def main(args: Array[String]) { 
val data = GradientBoostedTreesUtil.getTrainTestData() 


val train data = data._1 
val test_data = data._2 





val iterations_ param = Array (1, 5, 10, 15, 18) 
val iteration = 5 

val maxDepth param = Array (1, 5, 7, 10) 

veal maxBin, = 10 


val i = 0 
val resultsMap = new scala.collection.mutable.HashMap[String, String] 
val dataset = new DefaultCategoryDataset() 
for (i <- 0 until maxDepth param.length) { 
val maxDepth = maxDepth param(i) 
val rmsle = GradientBoostedTreesUtil 
.evaluate (train data, test_data, iteration, maxDepth, maxBin) 
resultsMap.put (maxDepth.toSstring, rmsle.toString) 
dataset .addValue (rmsle, "RMSLE", maxDepth) 





} 
val chart = new LineChart( 

"MaxDepth", 

"GradientBoostedTrees : RMSLE vs MaxDepth") 
chart .exec ("MaxDepth", "RMSLE", dataset) 
chart .pack () 


chart.lineChart .getCategoryPlot () .getRangeAxis() .setRange(1.32, 1.5) 
RefineryUtilities.centerFrameOnScreen (chart) 


图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 尊重 版 权 
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chart.setVisible(true) 
print (resultsMap) 
} 
} 


结果 的 可 视 化 效果 如 下 图 所 示 : 


GradientBoostedTrees : RMSLE vs MaxBin 
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上 述 各 参数 设置 对 应 的 代码 均 位 于 如 下 目录 内 : 
https://github.com/ml-resources/spark-ml/tree/branch-ed2/Chapter 07/scala/1.6.2/ 
霸 scala-spark-app/src/main/scala/org/sparksamples/gradientboosted。 
它 分 别 对 应 GradientBoostedTreesIterations.scala、GradientBoostedTreesMaxBins. 
scala 和 GradientBoostedTreesMaxDepth.scala 这 3 份 源 码 。 


7.6 小 结 


本 章 展 示 了 如 何 借助 Spark ML 库 对 线性 模型 、 决 策 树 和 梯度 提升 树 的 支持 , 用 Scala 构建 相 
关 的 回归 模型 。 内 容 涉 及 类 别 特征 的 提取 ， 以 及 对 目标 变量 进行 变换 对 回归 的 影响 。 最 后 ,实现 
了 各 种 性 能 评估 指标 , 并 用 它们 来 设计 了 交叉 验证 实验 , 研究 线性 模型 和 决策 树 模型 的 不 同 参数 
设置 对 测试 集 上 性 能 的 影响 。 


下 一 章 将 讨论 一 种 新 的 机 器 学 习 方 法 : 无 监督 学 习 ， 特 别 是 聚 类 模型 。 
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前 面 几 章 , 我 们 介绍 了 监督 学 习 ， 其 中 训练 数据 都 标注 了 需要 被 预测 的 真实 值 ( 比如 推荐 系 
统 的 打分 、 分 类 的 类 别 , 或 者 回归 预测 为 实数 的 目标 变量 )。 


接 下 来 , 我 们 将 考虑 数据 没有 标注 的 情况 , 具体 模型 称 作 无 监督 学 习 ( unsupervised learning )， 
即 模 型 训练 过 程 中 没有 被 目标 标签 监督 。 实 际 应 用 中 ,无 监督 的 例子 非常 常见 , 原因 是 在 许多 真 
实 场景 中 ,标注 数据 的 获取 非常 困难 ,或 者 代价 非常 大 ( 比如， 人 工 为 分 类 模型 标注 训练 数据 )。 
但 是 ， 我们 仍然 想 要 从 数据 中 学 习 基 本 的 结构 用 来 做 预测 。 


这 就 是 无 监督 学 习 方法 发 挥 作用 的 情形 。 通常 无 监督 学 习 和 监督 模型 会 相 结 合 ， 比 如 使 用 无 
监督 技术 为 监督 模型 生成 新 的 输入 特征 来 作为 输入 。 


在 很 多 情况 下 ， 聚 类 ( clustering ) 模型 等 价 于 分 类 模型 的 无 监督 形式 。 用 分 类 的 方法 ,我 们 
可 以 学 习 分 类 模型 ,预测 给 定 训练 样本 属于 哪个 类 别 。 这 个 模型 本 质 上 就 是 一 系列 特征 到 类 别 的 
映射 。 

在 聚 类 中 , 我 们 对 数据 进行 分 割 , 这 样 每 个 数据 样本 就 会 属于 某 个 部 分 , 称 为 类 簇 (cluster )。 
类 簇 相当 于 类 别 ， 只 不 过 不 知道 真实 的 类 别 。 

聚 类 模型 的 很 多 应 用 和 分 类 模型 一 样 ， 比 如 : 
口 基于 行为 特征 或 者 元 数据 将 用 户 或 者 客户 分 成 不 同 的 组 ; 
口 对 网 站 的 内 容 或 者 零售 店 中 的 商品 进行 分 组 ; 
口 找到 相似 基因 的 类 ; 
口 在 生态 学 中 进行 群体 分 割 ; 
口 创建 图 像 分 割 用 于 图 像 分 析 的 应 用 ， 比 如 物体 检测 。 
本 章 ， 我 们 将 : 


D 简略 讨论 一 些 聚 类 异型 的 类 型 


口 从 数据 中 提取 特征 ， 具 体 来 说 就 是 将 某 个 模型 的 输出 当 作 聚 类 模型 的 输入 特征 ; 
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口 训练 聚 类 模型 并 且 做 预测 ; 
口 应 用 性 能 评估 和 参数 选择 技术 来 选择 最 优 的 类 簇 个 数 。 














8.1 聚 类 模型 的 类 型 


聚 类 模型 有 很 多 种 ， 从 简单 到 复杂 都 有 。Spark MLlib 库 目 前 提供 了 天 -均值 聚 类 算法 ， 这 是 
最 简单 的 聚 类 算法 之 一 ， 但 也 非常 有 效 ， 而 简单 通常 意味 着 相对 容易 理解 和 扩展 。 











8.1.1 人 K- 均 值 聚 类 

天- 均值 算法 试图 将 一 系列 样本 分 割 成 玉 个 不 同 的 类 得 ( 其 中 是 模型 的 输入 参数 )。 
具体 来 说 , 及 -均值 聚 类 的 目的 是 最 小 化 所 有 类 得 中 的 方差 之 和 ,其 形式 化 的 目标 函数 称 为 类 
簇 内 的 方差 和 ( WCSS，within cluster sum of squared errors ): 


> >(oO)-vO) 


换 句 话说 ， 就 是 计算 每 个 类 簇 中 样本 与 类 中 心 的 平方 差 .再 求 和 。 


标准 的 K- 均 值 算法 初始 化 个 类 中 心 ( 为 每 个 类 簇 中 所 有 样本 的 平均 向 量 ), 后 面 的 过 程 不 
断 重复 迭代 下 面 两 个 步骤 。 


(1) 将 样本 分 到 WCSS 最 小 的 类 簇 中 。 因 为 方差 之 和 为 欧 氏 距离 的 平方 ， 所 以 最 后 等 价 于 将 
每 个 样本 分 配 到 欧 氏 距离 最 近 的 类 中 心 。 


(2) 根据 第 一 步 类 分 配 情 况 重 新 计算 每 个 类 簇 的 类 中 心 。 


KK- 均 值 从 代 算法 结束 条 件 为 达到 最 大 的 迭代 次 数 或 者 收敛 (convergence ) 。 收敛 意味 着 第 一 
步 类 分 配 之 后 没有 改变 ， 因 此 WCSS 的 值 也 没有 改变 。 



























































要 了 解 更 多 信息 ， 请 查阅 Spark 文档 中 关于 聚 类 的 部 分 ( http://spark.apache. 
0 org/docs/latest/mllib-clustering.html ) 或 者 维基 百科 ( https://en.wikipedia.org/wiki/ 
K-means_clustering )。 
为 了 说 明 天 -均值 的 基础 知识 ,我 们 使 用 第 6 章 的 多 类 别 分 类 中 的 简单 数据 集 , 其 中 有 5 个 类 ， 
如 下 图 所 示 。 








8.1 聚 类 模型 的 类 型 
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多 类 别 数据 集 





于 是 ， 假 定 我 们 不 知道 真实 的 分 类 ， 然 后 应 用 5 个 类 簇 的 K- 均 值 算法 ， 经 过 一 次 迭代 ， 
到 如 下 图 所 示 模 型 的 类 簇 标记 。 
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第 一 次 迭代 后 的 类 簇 标 记 


可 以 看 到 K- 均 值 已 经 可 以 很 好 地 找到 每 个 类 簇 的 中 心 。 下 一 次 迭代 后 ， 类 簇 的 标记 应 该 如 
下 图 所 示 。 


得 
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第 二 次 氨 代 后 的 类 簇 标 记 





第 二 次 迭代 之 后 类 簇 开始 变 得 稳定 ,但 是 类 簇 标 记 大 致 和 第 一 次 迭代 相同 。 一 旦 模型 收敛， 





























最 终 类 簇 标注 大 概 如 下 图 所 示 。 
® 可 
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天- 均值 最 后 聚 类 结果 


可 以 看 出 , 天 均值 聚 类 模型 对 5 个 类 簇 分 割 的 结果 还 不 错 。 其中， 左边 的 3 个 类 得 比较 准确 
( 部 分 错误 ), 但 是 右 下 角 的 两 个 类 簇 却 不 是 很 准确 。 
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这 说 明 : 

口 K- 均 值 本 质 是 个 迭代 过 程 ; 

口 模型 依赖 初始 化 时 类 中 心 的 选择 〈 这 里 指 随机 选择 类 中 心 ); 

口 最 后 的 类 簇 分 配 可 以 很 好 地 分 割 数据 ， 但 是 对 于 较 难 的 数据 分 割 也 会 不 好 。 
1. 初始 化 方法 












































K- 均 值 的 标准 初始 化 方法 通常 称 为 随机 方法 ， 即 在 开始 时 给 每 个 样本 随机 分 配 一 个 类 簇 。 
Spark MLlib 内 置 了 该 初始 化 方法 的 并 行 实现 版 本 ， 叫 K-means++， 这 也 是 默认 的 初始 化 方法 。 


更 多 资料 请 查看 https://en.wikipedia.org/wiki/K-means_clustering#Initialization_ 
methods 和 https:/en.wikipedia.org/wikiK-means%2B%2B 。 





使 用 K-means++ 的 结果 如 下 图 所 示 。 从 结果 来 看 ， 右 下 角 的 大 部 分 样本 聚 类 正确 。 
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天 -means++ 的 聚 类 结果 
2. K- 均 值 变 种 


KK- 均 值 算法 存在 许多 变种 ,它们 的 重点 集中 于 初始 化 方法 或 者 核心 模型 。 其 中 一 个 最 常见 的 
变种 是 模糊 K- 均 值 ( 名 zzy K-means )。 这 个 模型 没有 像 K- 均 值 那样 对 每 个 样本 分 配 一 个 类 簇 (或 
者 称 为 硬 分 配 )， 相 反 ， 它 是 K- 均 值 的 软 分 配 版 本 ， 即 每 个 样本 可 以 属于 多 个 类 簇 并 被 表示 为 样 
本 与 每 个 类 艇 的 相对 关系 。 于 是 ， 当 类 簇 数 为 K 时 ， 每 个 样本 会 被 表示 为 维 的 关系 向 量 ， 疝 
量 中 的 每 一 项 表示 对 应 的 类 簇 。 
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8.1.2 混合 模型 

混合 模型 本 质 上 是 模糊 玉 均 值 的 扩展 ， 但 是 它 假设 样本 的 数据 是 由 某 种 概率 分 布 产生 的 。 
比如 , 我 们 可 以 假设 样本 是 由 个 独立 的 高 斯 概率 分 布 生成 的 。 类 入 的 分 配 是 软 分 配 ， 所 以 每 个 
样本 由 天 个 概率 分 布 的 权重 表示 。 












































i 更 多 细节 和 混合 模型 数学 的 描述 见 https://en.wikipedia.org/wiki/Mixture model。 


8.1.3 ”层次 聚 类 


层次 聚 类 ( hierarchical clustering ) 是 一 种 结构 化 的 聚 类 方法 , 最 终 可 以 得 到 多 层 的 聚 类 结果 ， 
其 中 每 个 类 簇 可 能 包含 多 个 子 类 簇 。 因 为 每 个 子 类 簇 和 父 类 徐 连 接 ， 所 以 这 种 形式 也 称 为 树 形 聚 
类 ( tree clustering )。 























层次 聚 类 分 为 两 种 : 凝聚 聚 类 ( agglomerative clustering ) 和 分 裂 式 聚 类 ( divisive clustering )。 
凝聚 聚 类 的 方法 是 自 下 而 上 的 : 
口 每 个 样本 自身 作为 一 个 类 簇 ; 
D 计算 与 其 他 类 簇 的 相似 度 ( 或 距离 ); 
口 找到 最 相似 的 类 徐 ， 然 后 合并 组 成 新 的 类 簇 ; 
口 重复 上 述 过 程 ， 直 到 最 上 层 只 留 下 一 个 类 艇 。 

分 裂 式 聚 类 是 自 上 而 下 的 方法 ， 过 程 刚 好 和 凝聚 聚 类 相反 。 刚 开始 所 有 样本 属于 一 个 类 簇 ， 
接 下 来 每 一 步 将 每 个 类 簇 一 分 为 二 ， 最 后 直到 所 有 的 样本 在 底层 独自 为 一 个 类 簇 。 

自 上 而 下 的 聚 类 因为 每 层 分 类 时 都 需要 引入 二 级 扁平 聚 类 算法 , 所 以 会 比 自 下 而 上 的 聚 类 复 
森 。 它 的 优势 在 于 ， 当 不 需要 夷 类 到 单个 样本 各 成 一 类 的 水 平时 ， 其 效率 会 更 高 。 















































人 更 多 资料 请 参考 https://en.wikipedia.org/wiki/Hierarchical_clustering。 


8.2 ”从 数据 中 提取 正确 的 特征 


类 似 于 大 多 数 机 噩 学 习 模型 , K- 均 值 聚 类 需要 数值 向 量 作 为 输入 , 于 是 用 于 分 类 和 回归 的 特 
征 提 取 和 变换 方法 也 适用 于 肾 类 。 


-均值 和 最 小 方差 回归 一 样 ， 使 用 方差 函数 作为 优化 目标 ， 因 此 容易 受到 离 群 值 (outlier ) 
和 较 大 方差 的 特征 的 影响 。 























8.2 ”从 数据 中 提取 正确 的 特征 263 





离 群 值 会 引发 众多 问题 ， 而 聚 类 能 用 于 该 类 值 的 检测 。 

对 于 回归 和 分 类 问题 来 说 , 上 述 问题 可 以 通过 特征 的 归 一 化 和 标准 化 来 解决 , 这 同时 可 能 
助 于 提升 性 能 。 但 是 某 些 情况 下 ,我 们 可 能 不 希望 数据 被 标准 化 ， 比 如 根据 某 个 特定 的 特征 找到 
对 应 的 类 复 。 























从 MovieLens 数据 集 提取 特征 


本 章 会 用 到 第 5 章 推 荐 引擎 所 用 的 电影 评级 数据 集 。 这 个 数据 集 主 要 分 为 用 户 评级 数据 
(u.data )、 用 户 数 据 (u.user ) 和 电影 数据 (u.item) 3 个 部 分 。 


下 面 会 用 ALS 算法 提取 用 户 和 电影 的 数值 型 特征 ， 然 后 对 其 进行 聚 类 分 析 。 
(1) 首先 将 u.aata 导入 到 一 个 DataFrame 中 : 

















val ratings = spark.sparkContext 
.textFile(DATA_PATH + "/u.data") 
:Tab Split (0 NE yy) 
.map (lineSplit => Rating(lineSplit(0) .toInt 
,， lineSplit(1) .toInt 
， lineSplit(2) .toFloat 
,， lineSplit (3) .toLong)) 
toOBDE(:) 
ratings.show!(5) 


(2) 将 数据 集 按 8 : 2 比例 分 为 训练 数据 集 和 测试 数据 集 : 
val Array (training, test) = ratings.randomSplit (Array (0.8, 0.2)) 


(3) 初始 化 ALS 对 象 ， 设 置 最 大 迭代 次 数 为 5， 正 则 化 参数 为 0.01: 











val als = new ALS() 
.SetMaxIter (5) 
.SetRegParam(0.01) 
.SetUserCol ("userId") 
.SetItemCol ("movieId") 
.SetRatingCol ("rating") 


(4) 创建 模型 并 计算 预测 值 : 


val model = als.fit (training) 
val predictions = model.transform(test) 


(5) 计算 用 户 因子 和 物品 因子 ， 即 userFactors 和 itemFactors: 





val evaluator = new RegressionEvaluator() 
.SetMetricName ("rmse") 
.SetLabelCol ("rating") 
.SetPredictionCol ("prediction") 
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val rmse = evaluator .evaluate (predictions) 
println(s"Root-mean-square error = Srmse") 


val itemFactors = model.itemFactors 
itemFactors.show!() 


val userFactors = model.userFactors 
userFactors.show() 


(6) 将 用 户 因 子 和 物品 因子 转 为 libsvm 格式 ， 然 后 持久 化 存储 到 一 个 文件 中 。 注 意 ， 这 里 会 
持久 化 所 有 的 特征 ， 包 括 上 述 两 个 特征 。 


val itemFactorsOrdererd = itemFactors.orderBy ("id") 
val itemFactorLibSVMFormat = itemFactorsOrdererd.rdd 
.map (x => x(0) + " " + getDetails (x(1) 
.asInstanceOf[scala.collection.mutable.WrappedArray [Float]])) 
println("itemFactorLibSVMFormat .count () : " 
+ IILemFactorLibSVMFormat .count () ) 
print ("itemFactorLibSVMFormat.first() : " 
+ itemFactorLibSVMFormat.first()) 




















itemFactorLibSVMFormat .coalesce(1) 
.SaveAsTextFile(output + "/" + date time + "/movie_ lens_items_libsvm") 


movie_lens_items_lipsvm 的 输出 如 下 : 


1 1:0.44353345 2:-0.7453435 3:-0.55146646 4:-0.40894786 
5:-0.9921601 6:1.2012635 7:0.50330496 8:-0.23256435 
9:0.55483425 10:-1.4781344 

9:0.2220822 

10:-0.70235217 


(7) 下 面 将 前 两 个 特征 ( 含 最 大 偏差 ) 持久 化 到 一 个 文件 中 : 


Var itemFactorsXY = itemFactorsOrdererd.rdd.map(x => getxXxY (x(1) 
.asInstanceOf[scala.collection.mutable.WrappedArray [Float]])) 
itemFactorsxY.first() 
itemFactorsXY.coalesce(1) 
.SaveAsTextFile(output + "/" + date time + "/movie_ lens_items_ xy") 


movie_lens_items_xy 的 输出 如 下 : 


2.254384458065033, 0.5487040132284164 
-2.0540390759706497, 0.5557805597782135 
-2.303591560572386, -0.047419726848602295 
-1.4234793484210968, 0.6246072947978973 
-0.04958712309598923, 0.14585793018341064 


(8) 再 计算 userFactors， 并 将 其 转 为 libsvm 格式 : 


val userFactorsOrdererd = userFactors.orderBy ("id") 
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val userFactorLibSVMFormat = userFactorsOrdererd.rdd.map(x => x(0) + " "+ 
getDetails(x(1) .asInstanceOf[scala.collection.mutable.WrappedArray [Float]])) 

println("userFactorLibSVMFormat .count () : " + userFactorLibSVMFormat .count () ) 

print ("userFactorLibSVvMFormat.first() : " + userFactorLibSVMFormat.first()) 


userFactorLibSVMFormat .coalesce (1) 
.SaveAsTextFile(output + "/" + date time + "/movie_ lens users_libsvm") 





movie_lens_users_libsvm 的 输出 如 下 : 


1 1:0.75239724 2:0.31830165 3:0.031550772 4:-0.63495475 
5:-0.719721 6:0.5437525 7:0.59800273 8:-0.4264512 
9:0.6661331 

5:-0.61448336 6:0.5506227 7:0.2809167 8:-0.08864456 
9:0.57811487 10:-1.1085391 


(9) 提取 前 两 个 特征 ， 并 持久 化 到 一 个 文件 中 : 


Var userFactorsXY = userFactorsOrdererd.rdd.map( 

x => getxY(x(1) .asInstanceOf[scala.collection.mutable.WrappedArray [Float]])) 
userFactorsXY.first() 
userFactorsXY.coalesce(1) 

.SaveAsTextFile(output + "/" + date time + "/movie_lens user xy") 





movie_lens_user_xy 的 输出 如 下 : 
-0.2524261102080345, 0.4112294316291809 
-1.7868174277245998，1.435323253273964 
-0.8313295543193817, 0.09025487303733826 


-1.9222962260246277, 2.8779889345169067 
-1.3799060583114624, 0.21247059851884842 


后 续 会 用 到 xy 特征 来 对 这 两 个 特征 进行 聚 类 ， 然 后 将 聚 类 结果 可 视 化 到 一 个 二 维 平面 上 。 





上 述 代码 位 于 : 
0 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 08/scala/2.0.0/ 
src/main/scala/org/sparksamples/als/ALSMovieLens.scala。 


8.3 ” K- 均 值 训练 聚 类 模型 


在 Spark MLlib 中 训练 K- 均 值 的 方法 和 其 他 模型 类 似 ， 只 要 把 包含 训练 数据 的 DataFrame 传 
入 KMeans 对 象 的 拟 合 函 数 即 可 。 


C3 这 里 会 使 用 libsvm 的 数据 格式 。 
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8.3.1 训练 K- 均 值 聚 类 模型 
下 面 将 对 之 前 构建 推荐 模型 时 所 生成 的 电影 和 用 户 因 子 生成 相应 的 聚 类 模型 。 


模型 运行 时 , 需要 传人 两 个 参数 : 类 簇 的 个 数 K 和 最 大 可 迭代 次 数 。 知 某 次 迭代 与 其 上 一 次 
和 迭代 对 应 的 目标 函数 的 差 值 小 于 某 个 容许 限度 ( 默认 为 0.0001 )， 模 型 将 停止 训练 ， 此 时 实际 选 
代 次 数 将 会 小 于 或 等 于 最 大 可 迭代 次 数 。 

Spark MLlib 的 K- 均 值 提供 了 随机 和 KK-means|| 两 种 初始 化 方法 ,后 者 是 默认 初始 化 。 因 为 两 
种 方法 都 是 随机 初始 化 ， 所 以 每 次 模型 训练 的 结果 都 不 一 样 。 


KK- 均 值 通常 不 能 收敛 到 全 局 最 优 解 ， 所 以 实际 应 用 中 需要 多 次 训练 并 选择 最 优 的 模型 。 
MLlib 提供 了 完成 多 次 模型 训练 的 方法 。 经 过 损失 函数 的 评估 ,将 性 能 最 好 的 一 次 训练 选 定 为 最 
终 的 模型 。 





















































(1) 首先 创建 一 个 sparksession 实例 ,并 用 它 来 载 人 movie_lens_users_libsvm 数据 : 


val spConfig = (new SparkConf) .SetMaster("1Llocal [1]") .setApPName ("SparkApp") 
.Set ("spark.driver.allowMultipleContexts", "true") 


val spark = 
.builder() 
.appName ("Spark SQL Example") 
.config(spConfig) 
.getOrCreate() 


SparkSession 


val datasetUsers = spark.read.format ("libsvm") .load( 
BASE + "/movie_ lens_ 2f users_libsvm/part-00000") 
datasetUsers.show(3) 





输出 如 下 : 

+----- +-------------------- 十 
llabel | features| 
+----- +-------------------- 十 


| 1.01(10,[0,1,2,3,4,5,...| 
| 2.01(10,[0,1,2,3,4,5,...| 
| 3.01(10,[0,1,2,3,4,5,...| 


only showing top 3 rows 


(2) 然后 创建 一 个 模型 : 





val kmeans = new KMeans () .setK(5) .setSeed(1L) 
kmeans.setMaxIter (20) 


(3) 最 后 使 用 用 户 向 量 数据 集 来 训练 一 个 K- 均 值 模型 : 





val modelUsers = kmeans.fit (datasetUsers) 
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8.3.2 用 聚 类 模型 来 预测 
该 已 训练 K- 均 值 模型 使 用 简便 ， 和 之 前 介绍 过 的 分 类 和 回归 等 模型 类 似 。 


将 相应 的 DataFrame 对 象 传 给 该 模型 的 tranform 因数 » 即 可 对 多 个 输入 进行 预测 : 





val predictedDataSetUsers = modelUsers.transform(datasetUsers) 
predictedDataSetUsers.show(5) 


其 输出 是 对 各 个 数据 点 的 类 标识 ,该 标识 位 于 prediction 列 : 





+----- +-------------------- +---------- + 
Illabel | features|lprediction| 
+----- +-------------------- +---------- + 
| 1.01(10,[0,1,2,3,4,5,...| 21 
| 2.01(10,[0,1,2,3,4,5,...| 01 
| 3.0|1(10,[0,1,2,3,4,5,...| 01 
| 4.01(10,[0,1,2,3,4,5,...| 21 
| 5.0|1(10,[0,1,2,3,4,5,...| 21 
+----- +-------------------- +---------- + 


only showing top 5 rows 


注意 ， 由 于 随机 初始 化 ,任意 两 次 训练 的 模型 预测 的 类 别 可 能 都 不 一 样 ， 因 此 
你 自己 训练 的 结果 可 能 也 和 上 面 的 不 一 样 。 需 要 说 明 的 是 ， 类 徐 的 ID 没有 内 在 含 
义 ， 都 是 从 0 开始 任意 生成 的 。 
各 上 述 及 以 下 解读 有 关 的 完整 代码 参见 : https://github.com/ml-resources/spark-ml/ 
blob/branch-ed2/Chapter 08/scala/2.0.0/src/main/scala/org/sparksamples/kmeans/Movie- 
LensKkMeansPersist.scala, 


8.3.3 解读 预测 结果 


前 面 介绍 了 如 何 对 一 系列 输入 数据 进行 预测 , 但 是 如 何 对 预测 的 结果 进行 评估 呢 ? 接 下 来 将 
讨论 性 能 评测 指标 ， 但 是 先 来 看 看 如 何 通过 人 工 观 察 来 解释 K- 均 值 模型 做 的 类 别 分 配 。 


尽管 无 监督 方法 具有 不 用 提供 带 标注 的 训练 数据 的 优势 ， 但 它 的 不 足 是 需要 人 工 来 解释 结 
果 。 为 了 进一步 检验 聚 类 的 结果 ， 通 常 还 需要 为 每 个 类 艇 标注 一 些 标签 或 者 类 别 来 帮助 解释 。 


比如 ,为 了 检验 电影 聚 类 的 结果 , 我 们 尝试 观察 是 否 每 个 类 簇 具 有 可 以 解释 的 含义 ， 比 如 题 
材 或 者 主题 。 具体 方法 有 很 多 , 这 里 重点 解释 每 个 类 簇 中 靠近 类 中 心 的 一 些 电 影 。 我 们 认为 选择 
的 这 些 电 影 对 所 分 配 的 类 簇 争议 最 小 , 并且 最 能 代表 所 述 类 簇 中 的 其 他 电影 ,通过 检查 上 述 电 影 ， 
我 们 可 以 获得 每 个 类 簇 中 电影 的 共有 属性 。 


作为 例子 ,下面 列 出 了 第 一 个 类 得 下 所 包含 的 电影 名 , 具体 做 法 是 对 包含 电影 名 的 数据 集 和 
上 述 预测 输出 数据 集 做 连接 ( join ) 操作 。 输 出 如 下 : 
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Cluster : 0 


| GoldenEye (1995) | 
| Four Rooms (1995) | 
1Shanghai Triad (Y.. .| 
ITwelve Monkeys (1...| 
IDead Man Walking ...| 
IUsual Suspects, T. 
IMighty Aphrodite . 
IAntonia's Line (1...| 
| Braveheart (1995) | 
| Taxi Driver (1976) 1 


only Showing top 10 rows 


下 面 会 对 每 个 标签 的 类 簇 进行 预测 , 并 将 结果 保存 在 一 个 文本 文件 中 , 最 后 绘制 出 相应 的 二 
维 散 点 图 。 


该 代码 总 共 会 绘制 两 幅 散 点 图 ， 分 别 对 应 用 户 和 物品 ( 即 电影 )。 后 文 将 列 出 用 户 的 情况 。 











object MovieLensKMeansPersist { 
val BASE = "./data/movie_lens_libsvm 2f" 
val time = System.currentTimeMillis() 
val formatter = new SimpleDateFormat ("dd_ MM yyyy_hh mm ss") 





import java.util.Calendar 


val calendar = Calendar.getIinstance!() 
calendar.setTimeInMillis (time) 
val date time = formatter.format (calendar.getTime()) 


def main(args: Array[String]): Unit = { 
val spConfig = (new SparkConf) .setMaster ("local[1]") 
.SetAppName ("SparkApp"). 
set ("spark.driver.allowMultipleContexts", "true") 


val spark = 
.builder() 
.appName ("Spark SQL Example") 
.config (spConfig) 
.getOrCreate() 


SparkSession 


val datasetUsers = spark.read.format ("libsvm") 
.load(BASE + "/movie_ lens_ 2f users_libsvm/part-00000") 
datasetUsers.show(3) 





val kmeans = new KMeans () .setK(5).setSeed(1L) 
kmeans.setMaxIter (20) 
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val modelUsers = kmeans.fit (datasetUsers) 


// 用 Within Set Sum of Squareqd Errors 评估 聚 类 结果 
val predictedDataSetUsers = modelUsers.transform(datasetUsers) 
print (predictedDataSetUsers.first()) 
print (predictedDataSetUsers.count()) 
val predictionsUsers = predictedDataSetUsers 
.Select ("prediction") .rdd.map(x => x(0)) 
predictionsUsers 
.SaveAsTextFile(BASE + "/prediction/" + date time + "/kmeans-users") 


val datasetItems = spark.read.format ("libsvm") .load( 
BASE + "/movie_ lens_2f_ items_libsvm/part-00000") 
qatasetItems .Show(3) 





Val kmeansItems = new KMeans () .SetK(5) .setSeedq(1D) 

val modelItems = kmeansItems .fit(dqatasetItems) 

// 用 Within Set Sum of Squared Errors (WSSSE) 评估 聚 类 结果 

val WSSSEItems = modelItems.computeCost (datasetItems) 
println(s"Items : Within Set Sum of Squared Errors = SWSSSEItems") 


// 打印 结果 
println("Items - Cluster Centers: ") 
modelUsers.clusterCenters.foreach (println) 
val predictedDataSetItems = modelItems.transform(datasetItems) 
val predictionsItems = predictedDataSetItems 
.Select ("prediction") .rdd.map(x => x(0)) 
predictionsItems 
.SaveAsTextFile(BASE + "/prediction/" + date time + "/kmeans-items") 





spark.stop() 


def loadInLibSVMFormat (line: String, noOfFeatures: Int): LabeledPoint = { 


val items = line.split(' ') 
val label = items.head.toDouble 
val (indices, values) = items.tail.filter(_.nonEmpty) .map { item => 
val indexAndValue = item.split(':') 
// 将 从 1 开始 的 索引 转 为 从 0 开始 
val index = indexAndValue(0) .toInt - 1 
val value = indexAndValue(1) .toDouble 
(index, value) 
} .unzip 


// 检查 索引 是 否 是 从 1 开始 升序 编号 的 
Var previous = -1 
Var 宝 , 三, 浊 
val indicesLength = indices.length 
while (i < indicesLength) { 
val current = indices (i) 
require(current > previous 
"indices should be one-based and in ascending order") 
previous = current 
i += 1 








A 区 3 
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} 
(label, indices.toArray, values.toArray) 
import org.apache.spark.mllib.linalg.Vectors 
val d = noOfFeatures 
LabeledPoint (label, Vectors.sparse(d, indices, values)) 
} 


下 图 显示 了 用 户 数 据 的 K- 均 值 类 簇 划分 情况 。 
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下 图 显示 了 对 用 户 数 据 取 两 个 特征 ， 





在 一 次 迭代 后 的 KK- 均值 类 簇 划 分 情况 。 
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下 图 显示 了 对 用 户 数据 取 两 个 特征 ， 在 10 次 和 欠 代 后 的 天 均值 类 簇 划 分 情况 。 与 上 一 幅 图 对 
比 ， 注 意 类 簇 边界 的 变动 。 
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8.4 ”评估 聚 类 模型 的 性 能 


与 回归 、 分 类 和 推荐 引擎 等 模型 类 似 ， 聚 类 模型 也 有 很 多 评估 方法 用 于 分 析 模 型 性 能 ， 以 及 
评估 模型 对 样本 的 拟 合 度 。 聚 类 的 评估 通常 分 为 两 部 分 : 内 部 评估 和 外 部 评估 。 内 部 评 佑 指 评估 
过 程 使 用 训练 模型 时 使 用 的 训练 数据 ， 外 部 评估 则 使 用 训练 数据 之 外 的 数据 。 





8.4.1 内 部 评估 指标 


常用 的 内 部 评估 指标 包括 WCSS ( 之 前 提 过 的 天 -均值 的 目标 函数 )、Davies-Bouldin 指数 、 
Dunn 指数 和 轮 廊 系数 ( silhouette coefficient )。 所 有 这 些 度量 指标 都 是 使 类 簇 内 部 的 样本 距离 尽 
可 能 接近 ， 不 同类 复 的 样本 相对 较 远 。 
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和 更 多 细节 请 参见 维基 百科 : https://en.wikipedia.org/wiki/Cluster analysis# 


Internal evaluation 。 


8.4.2 ”外 部 评估 指标 


因为 聚 类 被 认为 是 无 监督 分 类 , 所 以 如 果 有 一 些 带 标注 的 数据 , 便 可 以 用 这 些 标 签 来 评 佑 聚 
类 模型 。 可 以 使 用 聚 类 模型 预测 类 簇 〈 类 标签 )， 使 用 分 类 模型 中 类 似 的 方法 评估 预测 值 和 真实 
标签 的 误差 ( 即 真 假 阳 性 率 和 真 假 阴 性 率 )。 


具体 方法 包括 Rand measure 、F-measure 、 雅 卡尔 系数 (Jaccard index ) 等 。 
































Vy 














0 更 多 关于 聚 类 外 部 评估 的 内 容 ， 请 参考 https://en.wikipedia.org/wiki/Cluster_ 


analysis#External evaluation 。 


8.4.3 在 MovieLens 数据 集 上 计算 性 能 指标 


Spark MLlib 提供 的 computecost 函数 可 以 方便 地 计算 出 给 定 DataFrame 的 WCSS。 下 面 我 
们 使 用 这 个 方法 计算 电影 和 用 户 训练 数据 的 性 能 : 

val WSSSEUsers = modelUsers.computeCost (datasetUsers) 

println(s"Users : Within Set Sum of Squared Errors = S$WSSSEUsers") 


val WSSSEItems = modelItems.computeCost (datasetItems) 
println(s"Items : Within Set Sum of Squared Errors = S$WSSSEItems") 


输出 结果 如 下 : 


Users : Within Set Sum of Squared Errors 
Items : Within Set Sum of Squared Errors 


衡量 WSSSE 有 效 性 的 最 佳 方法 是 绘制 出 不 同 迭 代 次 数 下 该 指标 的 变化 情况 ， 参 见 下 市 。 





2261.3086181660324 
5647.825222497311 























8.4.4 和 迭代 次 数 对 WSSSE 的 影响 


下 面 看 下 迭代 次 数 对 MovieLens 数据 集 上 WSSSE 的 影响 。 我 们 来 计算 不 同 迭 代 次 数 下 的 
WSSSE 值 ， 并 绘制 这 些 结果 。 





> 
Scala 实现 如 下 : 
object MovieLensKMeansMetrics { 
case class RatingX(userIid: Int, movielId: Int, rating: Float, timestamp: Long) 


val DATA_PATH = "../../../data/ml-100k" 
val PATH_MOVIES = DATA_PATH + "/u.item" 
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val dataSetUsers = null 


def main(args: Arrayl[lString]): Unit = { 
val spConfig = (new SparkConf) .setMaster ("local[1]").setAppName ("SparkApp"). 
set ("spark.driver.allowMultipleContexts", "true") 


val spark = 
.builder() 
.appName ("Spark SQL Example") 
.config(spConfig) 
.getOrCreate() 


SparkSession 


val datasetUsers = spark.read.format ("libsvm") .load!( 
"./data/movie_lens_libsvm/movie_ lens users_libsvm/part-00000") 
datasetUsers.show(3) 


yal 汪汪 

Valr TtR 全 < 天 人 二 这 (人 L020 .5502 53 :100) 

val result = new Array[String] (itr.length) 

for (i <- 0 until itr.length) { 
val w = calculateWSSSE(spark, datasetUsers, itr(i), 5, 1L) 
result(i) = itr(i) + "," + Ww 

} 

DETECT USOL Bn 3) 

fOr (J <= 0 until itr,Length) { 
printlin(result (j)) 


val datasetItems = spark.read.format ("libsvm") .load( 
"./data/movie_lens_libsvm/movie_ lens_items_libsvm/part-00000") 

val resultIitems = new Array[String] (itr.length) 

for (i <- 0 until itr.length) { 
val w = calculateWSSSE(spark, datasetItems, itr(i), 5, 1L) 
resultIitems(i) = itr(i) + "," + W 





for (j <- 0 until itr.length) { 
println(resultItems (j)) 


spark.stop() 


import org.apache.spark.sql.DataFrame 


def calculateWSSSE (spark: SparkSession, dataset: DataFrame, iterations: Int, k: Int, 
seed: Long): Double = { 
val x = dataset.columns 
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val kmeans = new KMeans () .SetK(k) .setSeedq(seed) .setMaxIter (iterations) 


val model = kmeans.fit (dataset) 
val WSSSEUsers = model.computeCost (dataset) 
return WSSSEUsers 


} 
其 输出 如 下 : 


1,2429.214784372865 
10,2274.362593105573 
20,2261.3086181660324 
50,2261.015660051977 
75,2261.015660051977 
100,2261.015660051977 


1,5851.444935665099 
10,5720.505597821477 
20,5647.825222497311 
50,5637.7439669472005 
75,5637.7439669472005 
100,5637.7439669472005 


上 述 代 码 位 于 : 
0 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 08/scala/2.0.0/ 
src/main/scala/org/sparksamples/kmeans/MovieLensKk MeansMetrics.scala。 


下 面 将 结果 可 视 化 ， 以 便 更 直观 地 理解 ( 见 下 图 ): 
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用 户 数据 上 WSSSE 与 迭代 次 数 之 间 的 关系 
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KMeans - ltems : WSSSE vs. lterations 
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影 数据 上 WSSSE 与 迭代 次 数 之 间 的 关系 
从 图 中 可 见 ， 对 用 户 和 电影 数据 而 言 ， 迭 代 次 数 分 别 从 18 和 20 开始 ，WSSSE 便 接近 平稳 。 





8.5 二 分 K- 均 值 
二 分 天 均值 (bisecting K-means ) 是 K- 均 值 的 一 种 衍生 算法 。 





0 该 算法 的 细节 可 参考 https://archive.siam.org/meetings/sdm01/pdf/sdm01 05.pdf。 


其 步 又 如 下 。 


(1) 随机 选择 一 个 点 ， 比 如 cs s9%2”， 计 算 M 的 篮 心 点 (centroid ) mw， 然后 计算 : 





cr ER?, cp =w—(c,—w) 


徐 心 点 是 类 簇 的 中 心 点 。 簇 心 点 是 一 个 向 量 , 每 个 元 素 对 应 一 个 变量 , 各 个 元 素 值 则 为 该 类 
篮 下 所 观察 到 的 对 应 变量 的 均值 。 


CO) 将 M= [co x2,…, Xx] 分 为 两 个 子 类 Mi 和 Mr， 划分 规则 如 下 : 





上 i | -eslx -esl 
| 


(3) 如 第 2 步 ， 计算 Mi 和 MeR 的 簇 心 点 ， WL 和 WRo 


(4) 如 果 wr=ci 且 wa=cR， 训 练 结束 。 和 否则 ， 令 cr=wr，cr=wr， 然 后 继续 第 2 





du 
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8.5.1 二 分 K- 均 值 一 一 训练 一 个 聚 类 模型 


用 Spark ML 来 训练 一 个 二 分 K- 均 值 模 型 和 训练 其 他 模型 类 似 , 即 将 包含 训练 数据 的 DataFrame 
传 给 BisectingKMeans 对 象 的 拟 合 函 数 。 注 意 ， 下 面 数 据 用 的 是 libsvm 格式 。 


(1) 初始 化 Spark 集群 : 


val spConfig = (new SparkConf) 
.SetMaster ("local[1]") 
.SetAppName ("SparkApp") 
.Set ("spark.driver.allowMultipleContexts", "true") 











val spark = SparkSession 
.builder() 

.appName ("Spark SQL Example") 

.config (spConfig) 


.getOrCreate() 


val datasetUsers = spark.read.format ("libsvm") .loadl( 
BASE + "/movie_ lens_ 2f users_libsvm/part-00000") 
datasetUsers.show(3) 


show (3) 了 艺 数 的 输出 如 下 : 


+----- +-------------------- + 
Illabel| features| 
+----- +-------------------- + 
| 1.01(2,[0,1],[0.37140...| 
| 2.01(2,[0,1],[-0.2131...| 
| 3.01(2,[0,1],[0.28579...| 
+----- +-------------------- + 
only showing top 3 rows 


创建 BisectingKMeans 对 象 ， 并 设置 相关 参数 . 


val bKMeansUsers = new BisectingKMeans () 
bkKMeansUsers.setMaxIter (10) 
bkMeansUsers.setMinDivisibleClusterSize(4) 


(2) 训练 模型 : 


val modelUsers = bKMeansUsers.fit (datasetUsers) 

val movieDF = Util.getMovieDataDF (spark) 

val predictedUserClusters = modelUsers.transform(datasetUsers) 
predictedUserClusters.show(5) 














输出 如 下 : 

+----- +-------------------- +---------- + 
Illabel | features|1predictionl 
+----- +-------------------- +---------- 十 
| 1.01(2,[0,1],[0.37140...| 31 
| 2.01(2, [0,1]，[-0.2131...1 31 
| 3.01(2,[0,1],[0.28579...| 31 
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| 4.0|1(2,[0,1],[-0.6541...| 11 
| 5.01(2,[0,1],[0.90333...| 21 
+----- +-------------------- +---------- + 
only showing top 5 rows 


(3) 按 类 簇 列 出 电影 : 


val joinedMovieDFAndPredictedCluster = 
movieDF.join(predictedUserClusters 
,， predictedUserClusters ("label") === movieDF ("id")) 
print (joinedMovieDFAndPredictedCluster.first()) 
joinedMovieDFAndPredictedCluster.show(5) 


输出 如 下 : 


+--+--------------- +----------- +----- +-------------------- +---------- + 
datel|label | features|lprediction| 


| 1| Toy Story (1995) |101-Jan-1995| 1.0|(2,[0,1],[0.37140...13| 

| 21 GoldenEye (1995) |01-Jan-1995| 2.0|(2,[0,1],[-0.2131...13| 

| 31 Four Rooms (1995) |01-Jan-1995| 3.0|(2,[0,1],[0.28579...13| 

| 41 Get Shorty (1995) |01-Jan-1995| 4.0|(2,[0,1],[-0.6541...|1| 

| 5| Copycat (1995) 101-Jan-1995| 5.0|1(2,[0,1],[0.90333...12| 
+--+--------------- +----------- +----- +-------------------- +---------- + 
only showing top 5 rows 


不 妨 按 类 簇 序号 打印 各 类 的 前 10 部 电影 : 


EOF (E00 ELL GE 
val prediction0 = joinedMovieDFAndPredictedCluster 


.filter("prediction == " + i) 
prinitln("Clister 3 wo 1) 
Printlin (Te ") 
prediction0.select ("name").show(10) 


} 
其 中 第 一 个 类 簇 对 应 的 输出 如 下 : 





IAntonia's Line (1... 
IAngels and Insect... 
IRumble in the Bro... 
1Doom Generation, 


Mad Love (1995)| 
Strange Days (1995)| 
Clerks (1994)| 

Hoop Dreams (1994)| 


ILegends of the Fa...| 


Professional, The...| 


only showing top 10 rows 
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计算 WSSSE: 


val WSSSEUsers = modelUsers.computeCost (datasetUsers) 
println(s"Users : Within Set Sum of Squared Errors = S$WSSSEUsers") 


println("Users : Cluster Centers: ") 
modelUsers.clusterCenters.foreach (println) 


输出 如 下 : 


Users : Within Set Sum of Squared Errors = 220.213984126387 
Users : Cluster Centers: 
[-0.5152650631965345,-0.17908608684257435] 
[-0.7330009110582011,0.5699292831746033] 
[0.4657482296168242,0.07541218866995708] 
[0.07297392612510972,0.7292946749843259] 


下 面 对 各 电影 进行 预测 : 


// 读 取 数据 并 打印 输出 3 个 样本 

val datasetItems = spark.read.format ("libsvm") .load( 
BASE + "/movie_ lens_ 2f_items_libsvm/part-00000") 

datasetItems.show(3) 





val kmeansItems = new BisectingKMeans () .setK(5).setSeed(1L) 
val modelItems = kmeansIitems.fit (datasetIitems) 


// 通过 族 内 误差 平方 和 来 评估 聚 类 效果 
val WSSSEItems = modelItems.computeCost (datasetItems) 
println(s"Items : Within Set Sum of Squared Errors = S$WSSSEItems") 


// 输出 结果 

printlin("Items - Cluster Centers: ") 
modelUsers.clusterCenters.foreach (println) 
SPDark .stop () 


对 应 的 输出 如 下 : 


Items : within Set Sum of Squared Errors = 538.4272487824393 
Items - Cluster Centers: 
[-0.5152650631965345,-0.17908608684257435] 
[-0.7330009110582011,0.5699292831746033] 
[0.4657482296168242,0.07541218866995708] 
[0.07297392612510972,0.7292946749843259] 





上 述 代 码 位 于 : 
ei https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 08/scala/2.0.0/ 
src/main/scala/org/sparksamples/kmeans/BisectingK Means.scala, 


(4) 可 视 化 用 户 和 电影 类 艇 。 
下 面 提取 两 个 特征 并 绘制 各 用 户 和 电影 的 相应 的 类 簇 : 
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object BisectingKMeansPersist { 
val PATH = "/home/ubuntu/work/spark-2.0.0-bin-hadoop2.7/" 
val BASE = "./data/movie_lens_libsvm 2f" 


val time = System.currentTimeMillis() 
val formatter = new SimpleDateFormat ("dd_ MM yyyy_hh mm ss") 





import java.util.Calendar 


val calendar = Calendar.getIinstance() 
calendar.setTimeInMillis (time) 
val date time = formatter.format (calendar.getTime()) 


def main(args: Array[String]): Unit = { 


val spConfig = (new SparkConf) 

.SetMaster ("local[1]") 

.SetAppName ("SparkApp") 

.Set ("spark.driver.allowMultipleContexts", "true") 
val spark = SparkSession 

.builder() 

.appName ("Spark SQL Example") 

.config(spConfig) 

.getOrCreate() 
val datasetUsers = spark.read.format ("libsvm").load!( 
BASE + "/movie_ lens_2f users_ xy/part-00000") 
datasetUsers.show(3) 
val DPKMeansUsers = new BisectingKMeans () 
bkKMeansUsers.setMaxIter (10) 
bkKMeansUsers.setMinDivisibleClusterSize(5) 








val modelUsers = bkKMeansUsers.fit (datasetUsers) 
val predictedUserClusters = modelUsers.transform(datasetUsers) 








modelUsers.clusterCenters.foreach (println) 
val predictedDataSetUsers = modelUsers.transform(datasetUsers) 
val predictionsUsers = predictedDataSetUsers 
.Select ("prediction") 
.rdd.map(x => x(0)) 
predictionsUsers 
.SaveAsTextFile(BASE + "/prediction/" + date time + "/bkmeans_2f_ users") 


val datasetItems = spark.read.format ("libsvm") .load(BASE + 
"/movie_lens_ 2f_items_ xy/part-00000") 
qatasetItems .Show(3) 





val kmeansItems = new BisectingKMeans() .setK(5).setSeed(1L) 
val modelItems = kmeansItems.fit (datasetItems) 


val predictedDataSetItems = modelItems.transform(datasetItems) 
val predictionsItems = predictedDataSetItems 

.Select ("prediction") 

.rdd.map(x => x(0)) 
predictionsItems 
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.SaveAsTextFile(BASE + "/prediction/" + date _ time + "/bkmeans_2f_items") 
SPDark .stop () 


} 
下 图 显示 了 取 用 户 的 两 个 特征 后 类 簇 的 分 布 情况 。 
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下 图 显示 了 取 物 品 的 两 个 特征 后 类 簇 的 分 布 情况 。 
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8.5.2 ”WSSSE 和 迭代 次 数 
这 一 节 看 一 下 迭代 次 数 对 二 分 K- 均 值 模型 的 WSSSE 的 影响 。 


Scala 源码 如 下 : 


object BisectingKMeansMetrics { 


case class RatingX(userId: Int, movieId: Int 
,， rating: Float, timestamp: Long) 


val DATA_PATH = "../../../data/ml-100k" 
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val PATH_MOVIES = DATA_PATH + "/u.item" 
val dataSetUsers = null 


def main(args: Array[String]): Unit = { 


val spConfig = (new SparkConf) 
.SetMaster ("local[1]") 
.SetAppName ("SparkApp") 
.Set ("spark.driver.allowMultipleContexts", "true") 


val spark = 
.builder() 
.appName ("Spark SQL Example") 
.config (spConfig) 
.getOrCreate() 


SparkSession 


val datasetUsers = spark.read.format ("libsvm") 
.load("./data/movie_ lens_libsvm/movie_lens users_libsvm/part-00000") 
datasetUsers.show(3) 


val kK © 5 

Val itre = Array (1l; "L105 20% :505 75;. 7100) 

val result = new Array[String] (itr.length) 

fOr ei0 DntEL Ltrslellothy rt 
val w = calculateWSSSE(spark, datasetUsers, itr(i), 5) 
result(i) = itr(i) + "," + WwW 


for (j <- 0 until itr.length) { 
println(result (j)) 


val datasetItems = spark.read.format ("libsvm") 
.load("./data/movie_ lens_libsvm/movie_lens_items_libsvm/part-00000") 
val resultItems = new Array[String] (itr.length) 
for (i <- 0 until itr.length) { 
val w = calculateWSSSE(spark, datasetItems, itr(i), 5) 
resultItems(i) = itr(i) + "," + W 





EE 计生 区 全 二 守护 总 二 ") 

for (j <- 0 until itr.lengtn) { 
println(resultItems (J) ) 

} 

printin ("=====------ ") 


spark.stop() 


import org.apache.spark.sql.DataFrame 
def calculateWSSSE (spark: SparkSession, dataset: DataFrame 
， iterations: Int, k: Int): Double = { 


val x = dataset.columns 


val DPKMeans = new BisectingKMeans () 
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bkKMeans.setMaxIter (iterations) 
bkKMeans.setMinDivisibleClusterSize(k) 


val model = bKMeans.fit (dataset) 
val WSSSE = model.computeCost (dataset) 
return WSSSE 


} 
} 


数据 可 视 化 效果 如 下 图 所 示 : 
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电影 数据 上 WSSSE 与 迭代 次 数 之 间 的 关系 
不 难看 出 ， 在 用 户 和 电影 数据 上 ， 人 迭代 次 数 为 20 时 便 达 到 了 最 优 WSSSE。 
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混合 模型 是 求 一 个 群体 中 子 群体 的 最 可 能 归属 的 概率 模型 。 这 类 模型 根据 已 知 的 抽样 群体 来 
求 一 个 子 群体 的 统计 推断 。 


高 斯 混合 模型 (GMM，Gaussian mixture model ) 是 一 种 混合 模型 ， 它 用 多 个 高 斯 密度 函数 
( Gaussian component densities ) 的 线性 加 权 和 来 表示 分 布 概率 。 其 中 每 个 函数 称 为 一 个 组 件 
(component )。 各 加 权 系 数 通 过 迭代 式 期 望 最 大 法 (EM ，expectation-maximization ) 或 后 验 概率 
最 大 法 (MAP ，maximum a posteriori estimation ) 在 训练 数据 上 训练 得 出 。 

















Spark ML 使 用 EM 算法 来 实现 GMM。 
其 参数 如 下 。 


口 k: 期 望 的 类 簇 个 数 。 

口 convergenceTol: 收敛 冰 值 ， 当 相 邻 两 次 迭 代 的 损失 的 差 小 于 该 值 时 ， 便 认为 模型 已 
经 收敛 ， 训 练 完成 。 

口 maxIterations: 最 大 迭 代 次 数 。 即 若 一 直 未 收敛 ， 最 多 迭代 训练 多 少 次 。 

口 initModel: 可 选 参数 ，EM 初始 化 方法 。 若 未 指定 ， 则 会 随机 从 数据 创建 一 个 点 来 开始 
训练 。 








8.6.1 GMM 聚 类 分 析 
下 面 分 别 对 用 户 和 电影 创建 类 艇 ,以 更 好 地 理解 算法 对 它们 分 组 的 情况 。 
有 具体 步骤 如 下 。 


(1) 载 和 用户 对 应 的 libsvm 文件 。 
(2) 创建 GMM 实例 。 该 实例 的 可 配置 参数 如 下 : 





final val featuresCol: Param[String], 
Param for features column name. 
final val k: IntParam 
Number of independent Gaussians in the mixture model. 
final val maxIter: IntParam 
Param for maximum number of iterations (>= 0). 
final val predictionCol: Param[String] 
Param for prediction column name. 
final val probabilityCol: Param[String] 
Param for Column name for predicted class conditional probabilities. 
final val seed: LongParam 
Param for random seed. 
final val tol: DoubleParam 
max threshold for convergence 
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(3) 这 里 只 设置 高 斯 分 布 的 个 数 和 种 子 数 : 
val gmmUsers = new GaussianMixture().setK(5).setSeed(1L) 
(4) 创建 用 户 模型 ; 


for (i <- 0 until modelUsers.gaussians.lengtnhn) { 
println("Users : weight=%f\ncov=%s\nmean=\n%s\n" format 
(modelUsers.weights(i), modelUsers.gaussians (i) .CoV 
,， modelUsers.gaussians (i) .mean)) 








一 


} 
完整 代码 如 下 : 
object GMMClustering { 


def main(args: Arrayl[String]): Unit = { 
val spConfig = (new SparkConf) 
.SetMaster ("local[1]") 
.SetAppName ("SparkApp"). 
set ("spark.driver.allowMultipleContexts", "true") 


val spark = 
.builder() 
.appName ("Spark SQL Example") 
.config(spConfig) 
.getOrCreate() 


SparkSession 


val datasetUsers = spark.read.format ("libsvm") .load!( 
"./data/movie_lens_libsvm/movie_ lens users_libsvm/part-00000") 
datasetUsers.show(3) 





val gmmUsers = new GaussianMixture().setK(5).setSeed(1L) 
val modelUsers = gmmUsers.fit (datasetUsers) 


for (i <- 0 until modelUsers.gaussians.lengthn) { 
println("Users : weight=%f\ncov=%s\nmean=\n%s\n" format 
(modelUsers.weights(i), modelUsers.gaussians (i) .cov 
,， modelUsers.gaussians (i) .mean)) 


val dataSetIitems = spark.read.format ("libsvm") .load( 
./data/movie_lens_libsvm/movie_lens_items_libsvm/part-00000") 


val gmmItems = new GaussianMixture().setK(5).setSeed(1L) 
val modelItems = gmmItems.fit (dataSetItems) 


for (i <- 0 until modelItems.gaussians.lengtnhn) { 
println("Items : weight=%f\ncov=%s\nmean=\n%s\n" format 
(modelUsers.weights(i), modelUsers.gaussians (i) .CoV 
,， modelUsers.gaussians (i) .mean)) 


spark.stop() 
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def loadInLibSVMFormat (line: String, noOfFeatures: Int): LabeledPoint = { 

val items = line.split(' ') 

val label = items.head.toDouble 

val (indices, values) = items.tail.filter(_.nonEmpty) .map { item => 
val indexAndValue = item.split(':') 
val index = indexAndValue(0).toInt - 1 // 将 从 1 开始 的 索引 转 为 从 0 开始 
val value = indexAndValue(1) .toDouble 
(index, value) 

| 


// 检查 索引 是 否 从 1 开始 ， 且 为 升序 
var previous = -1 
var i = 0 
val indicesLength = indices.length 
while (i < indicesLength) { 
val current = indices (i) 
require(current > previous 
"indices should be one-based and in ascending order") 
previous = current 
i += 1 


(label, indices.toArray, values.toArray) 


import org.apache.spark.mllib.linalg.Vectors 
val d = noOfFeatures 
LabeledPoint (label, Vectors.sparse(d, indices, values)) 


8.6.2 可视化 GMM 类 簇 分 布 
下 面 提取 两 个 特征 并 绘制 各 用 户 和 电影 的 相应 类 得 ， 如 下 图 所 示 。 
下 图 为 GMM 模型 下 用 户 类 簇 分 配 情况 。 
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下 图 为 GMM 模型 下 电影 类 艇 分 配 情况 。 
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8.6.3 和 迭代 次 数 对 类 簇 边 珊 的 影响 
接 下 来 看 看 GMM 迭代 次 数 的 增加 对 类 簇 边 界 的 影响 : 
下 图 展示 了 单 次 迭代 后 用 户 的 类 簇 划 分 。 
GMM Movie Lens User Data - 1 Iteration 
un 四 
1.5 Cluster4 国 
Cluster2 
cluster3 国 
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下 图 展示 了 10 次 迭代 后 用 户 的 类 簇 划 分 。 
i GMM Movie Lens User Data - 10 Iterations 
ee | 
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下 图 展示 了 20 次 迭代 后 用 户 的 类 簇 划 分 。 











GMM Movie Lens User Data - 20 Iterations 
clusterl 国 
Cluster2 
1.5 Cluster0 奋 
Cluster4 
Cluster3 国 
1.0 © 
[3 
0.5 eee 
© 
0.0 © 
© 
0.5 oe 
图 四 
® 
1.0 
© 
1.5 
2.0 1.5 1.0 0.5 0.0 0.5 1.0 Lm 2.0 














8.7 小 结 


本 章 研 究 了 一 种 新 的 模型 ， 它 可 在 无 标注 数据 中 进行 学 习 ， 即 无 监督 学 习 。 我 们 学 习 了 如 
何 处 理 需要 的 输入 数据 、 特 征 提 取 ， 以 及 如 何 将 一 个 模型 (我 们 用 的 是 推荐 模型 ) 的 输出 作为 另 
外 一 个 模型 (天 -均值 聚 类 模型 ) 的 输入 。 最 后 ,我 们 评估 至 类 模型 的 性 能 时 ,不 仅 进行 了 类 簇 的 











人 工 解 释 ， 也 使 用 了 具体 的 数学 方法 进行 性 能 度量 。 





下 一 章 将 讨论 另 一 种 类 型 的 无 监督 学 习 , 在 数据 中 选择 保留 最 重要 的 特征 或 者 应 用 其 他 降 维 


模型 。 








Spark 应 用 于 数据 降 维 








本 章 将 继续 学 习 无 监督 学 习 模 型 中 数据 降 维 (dimensionality reduction ) 的 方法 。 


不 同 于 我 们 之 前 学 习 的 回归 、 分 类 和 聚 类 ， 降 维 方法 并 不 是 用 来 做 模型 预测 的 。 降 维 方法 从 
一 个 刀 维 (特征 向 量 的 长 度 ) 的 数据 输入 提取 出 维 表示 ,一 般 远 远 小 于 D。 因 此 ， 降 维 方 法 
本 身 是 一 种 预 处 理 方法 ,或 者 说 是 一 种 特征 转换 的 方法 ， 而 不 是 模型 预测 的 方法 。 


降 维 尤为 重要 的 一 点 是 ， 被 抽取 出 的 维度 表示 应 该 仍 能 保留 原始 数据 大 部 分 的 可 变性 和 结 
构 。 这 源 于 一 个 基本 想法 : 大 部 分 数据 源 包含 某 种 内 部 结构 ， 这 种 结构 一 般 来 说 是 未 知 的 ( 常 称 
为 隐 含 特征 或 潜在 特征 )， 但 如 果 能 发 现 结构 中 的 一 些 特征 ， 我 们 的 模型 就 可 以 学 习 这 种 结构 并 
从 中 预测 ， 而 不 用 从 充满 大 量 噪声 特征 的 原始 数据 中 去 学 习 预 测 。 换 言 之 ， 降 维 可 以 排除 数据 中 
的 噪声 ， 并 保留 数据 原 有 的 隐 含 结构 。 


有 时 候 ， 原 始 数据 的 维度 远 高 于 数据 点 个 数 。 不 降 维 ,直接 使 用 分 类 、 回 归 等 方法 进行 机 器 
学 习 建 模 将 非常 困难 ， 因 为 需要 拟 合 的 参数 数目 远大 于 训练 样本 的 数目 ( 从 这 个 意义 上 讲 , 这 种 
方法 与 我 们 在 分 类 和 回归 中 用 的 正则 化 方法 相似 )。 


以 下 是 一 些 使 用 降 维 技术 的 场景 : 


口 探索 性 数据 分 析 ; 

口 提取 特征 去 训练 其 他 机 器 学 习 模 型 ; 

口 降低 大 型 模型 在 预测 阶段 的 存储 和 计算 需求 ( 例如， 一 个 执行 预测 的 生产 系统 ); 

口 把 大 量 文档 缩减 为 一 组 隐 含 话题 或 概念 ; 

口 当 数 据 维度 很 高 时 ， 使 得 学 习 和 推广 模型 更 加 容易 〈 例如 ， 当 处 理 文本 、 声 音 、 图 像 、 
视频 等 非常 高 维 的 数据 时 )。 


本 章 中 ,我 们 将 : 


口 介绍 在 MLlib 中 可 以 使 用 的 降 维 模型 ; 
口 对 面部 图 像 数据 提取 合适 的 特征 进行 降 维 ; 
口 使 用 MLlib 训练 降 维 模型 ; 














































































































9.1 降 维 方法 的 种 类 289 








口 可 视 化 模型 结果 并 评价 ; 
口 对 于 降 维 模型 进行 参数 选择 。 
9.1 降 维 方法 的 种 类 
MLlib 提供 了 两 种 密切 相关 的 降 维 模型 : 主 成 分 分 析 法 ( PCA， principal components analysis ) 
和 奇异 值 分 解法 (SVD ，singular value decomposition )。 
9.1.1 主 成 分 分 析 


PCA 处 理 一 个 数据 和 矩阵， 抽取 抢 阵 中 大 个 主 向 量 ， 主 向 量 彼此 不 相关 。 计 算 结果 中 ,第 一 个 
主 向 量 表示 输入 数据 的 最 大 变化 方向 。 之 后 的 每 个 主 向 量 依次 代表 不 考虑 之 前 计算 过 的 所 有 方向 
时 最 大 的 变化 方向 。 


因此 , 返回 的 大 个 主 成 分 向 量 代表 了 输入 数据 可 能 的 最 大 变化 。 事 实 上 ,每 一 个 主 成 分 向 量 
上 有 着 和 原始 数据 矩阵 相同 的 特征 维度 。 因 此 需要 使 用 映射 来 做 一 次 降 维 ,原来 的 数据 被 投影 到 
主 向 量 表示 的 大 维 空间 。 
9.1.2 奇异 值 分 解 

SVD 试图 将 一 个 m xn 维 的 矩阵 处 分 解 为 3 个 主 成 分 矩阵 : 


口 m xm 维和 矩阵 过 
口 m xn 维 对 角 阵 S$，S 中 的 元 素 是 奇异 值 
口 nxn 维 矩 阵 六 














X=UxSxV!' 
观察 前 面 的 公式 ， 我 们 一 点 也 没有 降低 问题 的 维度 ， 因 为 通过 将 U、S 和 严 相 乘 ， 重 新 构建 本 本 





了 原始 的 和 矩阵。 事实 上 , 一 般 计算 截断 的 SVD。 也 就 是 说 ， 只 保留 前 个 奇异 值 ， 它 们 能 代表 数 
据 的 最 主要 变化 ， 而 剩余 的 奇异 值 被 丢弃 。 基 于 成 分 矩阵 重建 关 的 公式 大 概 是 : 


X ~ UxS, xVr 


一 个 截断 SVD 的 例子 如 下 图 所 示 。 
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保留 前 个 奇异 值 和 在 PCA 中 保留 前 个 主 成 分 类 似 。 事实 上 ,SVD 和 PCA 是 有 直接 联系 
的 ， 本 章 后 续 会 提 到 这 一 点 。 





PCA 和 SVD 的 详细 数学 推导 超出 了 本 书 范围 。 
可 以 在 下 面 的 Spark 文档 中 找到 降 维 方法 的 综述 : http://spark.apache.org/docs/ 
latest/mllib-dimensionality-reduction.html。 
OP 下 面 的 链接 分 别 包 含 了 与 PCA 和 SVD 相关 的 更 加 详细 的 数学 知识 : 
https://en.wikipedia.org/wiki/Principal component analysis 和 https://en.wikipedia.org/ 
wiki/Singular-value_decomposition。 


9.1.3 ”和 答 阵 分解 的 关系 


PCA 和 SVD 都 是 矩阵 分 解 技术 ， 从 某 种 意义 上 来 说 ， 它 们 都 把 原来 的 矩阵 分 解 成 一 些 维度 
(或 秩 ) 较 低 的 和 矩阵。 很 多 降 维 技术 都 是 基于 和 矩 阵 分 解 的 。 

你 也 许 记 得 矩阵 分 解 的 另 一 个 例子 ， 就 是 协同 过 滤 ， 在 第 6 章 我 们 看 到 过 。 在 协同 过 滤 的 例 
子 中 , 和 矩阵 分 解 负责 把 评分 矩阵 分 解 成 两 部 分 : 用 户 和 矩阵 和 商品 矩阵 。 两 者 都 具有 比 原 始 数据 更 
低 的 维度 ， 所 以 这 些 方法 也 是 减少 维度 的 模型 。 
































很 多 非常 好 的 协同 过 滤 算 法 都 包含 SVD 分 解 。Simon Funk 就 以 这 样 的 方法 
获得 了 Netflix 奖 ， 参 见 : http://sifter.org/~simon/journal/20061211.html。 


9.1.4 聚 类 作为 降 维 的 方法 
上 一 章 我 们 讲 的 聚 类 方法 也 可 以 用 来 做 降 维 。 可 以 通过 下 面 的 方式 做 到 
口 假设 我 们 对 高 维 的 特征 向 量 使 用 K- 均 值 聚 类 成 个 类 艇 ,结果 就 是 个 类 中 心 组 成 的 
A 
口 我 们 可 以 根据 原始 数据 与 这 个 中 心 的 远近 (也 就 是 计算 出 每 个 点 到 每 个 类 中 心 的 距离 ) 
表示 这 些 数据 ， 结 果 就 是 每 个 点 的 一 组 元 距离 ; 
口 这 大 个 距离 可 以 形成 一 个 新 的 大 维 向 量 , 我 们 就 用 比 原来 数据 维度 较 低 的 新 向 量 表示 了 原 
来 的 数据 。 
通过 使 用 不 同 的 距离 矩阵 ， 我 们 可 以 实现 数据 降 维 和 非 线 性 转换 ， 这 可 以 让 我 们 通过 高 效 、 
可 扩展 的 线性 模型 计算 学 习 更 复杂 的 模型 ,例如 使 用 高 斯 和 指数 距离 函数 可 以 实现 非常 复杂 的 非 
线性 特征 转换 。 
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9.2 ”从 数据 中 抽取 合适 的 特征 
和 我 们 到 目前 为 止 所 学 的 所 有 机 器 学 习 模型 一 样 ， 降 维 模 型 还 可 以 产生 数据 的 特征 向 量 表示 。 











本 章 我 们 将 利用 户外 面部 标注 集 ( LFW ，labeled faces in the wild ) 深入 到 图 像 处 理 的 世界 。 
这 个 数据 集 包含 13 000 多 张 主要 从 互联 网 上 获得 的 公众 人 物 的 面部 图 片 。 这 些 图 片 用 人 名 进行 
了 标注 。 





从 LFW 数据 集中 提取 特征 


为 了 避免 下 载 和 处 理 非常 大 的 数据 集 ， 我们 只 处 理 图 片 集 的 一 个 子 集 ， 选 择 名 字 以 字母 A 开 
头 的 人 的 面部 图 片 。 通 过 下 面 的 链接 可 以 下 载 这 个 数据 集 : http://Vis-www.cs.umass.edu/lfw/lfw-a.tgz。 








想 获得 更 多 的 细节 和 其 他 字母 对 应 的 数据 集 ， 请 访问 网 址 : http://Vis-www. 
cs.umass.edu/lfw/。 


原始 的 研究 报告 : 
i HUANGGB,RAMESH M, BERGT, etal. Labeled faces in the wild: a database 
for studying face recognition in unconstrained environments [R]. Amherst: University 
of Massachusetts ，Amherst，2007. 


通过 下 面 的 命令 解压 数据 : 





> tar xfvz lfw-a.tgz 

这 会 创建 一 个 叫 lfw 的 文件 夹 ， 其 中 包含 大 量子 文件 夹 ， 每 个 子 文件 夹 对 应 一 个 人 。 
1. 查看 面部 数据 

下 面 会 用 Spark 程序 来 分 析 数 据 。 请 确保 数据 解压 到 如 下 的 data 目录 下 : 


Chapter_09 

|== “2%0%X 

| | -- python 
| |-- scala 
1-- data 


除 作 图 有 关 代 码 位 于 python 目录 外 ， 实 际 的 代码 位 于 scala 目录 内 : 


| 1-- java 

| |-- resources 

| |-- scala 

| | | 区 IgG 

| | 1-- sparksamples 
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| |-- ImageProcessing.scala 
| |-- Util.scala 
|-- scala-2.11 





现在 我 们 已 经 解压 好 了 数据 , 但 面临 一 个 小 挑战 : 虽然 Spark 提供 了 读 取 文本 文件 和 Hadoop 
输入 源 的 方法 ,但 是 并 没有 提供 读 取 图 片 文件 的 内 置 功能 。 


Spark 提供 了 一 个 名 为 wholeTextFiles 的 方法 , 允许 我 们 同时 操作 整个 文件 , 它 不 同 于 我 
们 一 直 在 使 用 的 TextFile 方法 ,后 者 只 能 在 一 个 或 多 个 文本 文件 中 进行 逐 行 处 理 。 


我 们 将 使 用 wholeTextFile 方法 访问 每 个 文件 存储 的 位 置 。 通过 这 些 文件 路 径 , 我 们 可 以 
用 自 定义 代码 加 载 和 处 理 图 像 。 在 下 面 的 示例 代码 中 ,我 们 使 用 PATH 代表 解压 lfw 子 文件 夹 后 
的 路 径 。 


使 用 通配符 的 路 径 标 识 ( 下 面 的 代码 片段 中 的 * ) 来 告诉 Spark 在 Ifw 文件 夹 中 访问 每 个 文件 
夹 以 获取 文件 : 


val spConfig = (new SparkConf) 
.SetMaster ("local[1]") 
.SetAppName ("SparkApp") 
.Set ("spark.driver.allowMultipleContexts", "true") 
val sc = new SparkContext (spConfig) 
val path = PATH + "/lfw/*" 
val rdd = sc.wholeTextFiles (path) 
val first = rdd.first 
println (first) 


因为 Spark 首先 会 为 了 获取 所 有 可 访问 的 文件 而 检索 这 个 目录 的 结构 ,所 以 运行 first 命令 
可 能 会 花费 一 些 时 间 。 一 旦 完成 ， 应 该 可 以 看 到 如 下 的 输出 : 


first: (String, String) = (file:/PATH/lfw/Aaron Eckhart 






































wholeTextFiles 将 返回 一 个 由 键 值 对 组 成 的 RDD， 其 中 键 是 文件 位 置 ， 值 是 整个 文件 的 
内 容 。 对 我 们 来 说 ， 只 需要 文件 路 径 ， 因 为 我 们 不 能 直接 以 字符 串 形式 处 理 图 片 数 据 (注意 ， 数 
据 被 展示 为 “无 意义 的 二 元 形式 ”)。 

我 们 从 RDD 抽取 文件 路 径 。 同 时 要 注意 ， 文 件 路 径 格 式 以 “file:” 开 始 ， 这 个 前 缀 是 Spark 
用 来 区 分 从 不 同 的 文件 系统 读 取 文 件 的 标识 (例如, 他 e:/ 是 本 地 文件 系统 ，hdfs:/ 是 hdfs，s3n:// 
是 Amazon S3 文件 系统 ， 等 等 )。 

我 们 的 例子 将 使 用 自 定 义 代码 来 读 取 图 片 ， 所 以 我 们 不 需要 文件 路 径 这 部 分 。 因 此 我 们 通过 
下 面 的 map 函数 删除 前 面 的 部 分 : 


val files = rdd.map { case (fileName, content) => 
fileName.replace ("file:", "") } 
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这 将 显示 移 除 了 file: 前 级 的 文件 路 径 : 
/PATH/1fw/Aaron_Eckhart/Aaron Eckhart _ 0001.jpg 
下 面 会 显示 我 们 将 有 多 少 个 文件 要 处 理 : 

printin (files.count) 


运行 这 个 命令 会 在 Spark 的 shell 里 产生 很 多 噪声 输出 ， 因 为 所 有 读 取 的 文件 路 径 都 会 被 输 
出 。 尽 管 应 该 被 忽略 ， 但 命令 执行 完 后 的 输出 看 起 来 像 下 面 这 样 : 


..， /PATH/l1fw/Azra Akin/Azra Akin 0003.jpg:0+19927, 
/PATH/lfw/Azra Akin/Azra Akin 0004.jpg:0+16030 


14/09/18 20:36:25 INFO SparkContext: Job finished: count at 
<console\>:19, took 1.151955 s 
1055 


这 里 我 们 看 到 有 1055 个 文件 要 人 处理 。 
2. 可 视 化 面部 数据 








尽管 Scala 和 Java 有 一 些 可 用 工具 来 展示 图 片 ， 但 这 是 Python 和 matplotlib 更 擅长 的 。 
我 们 将 使 用 Scala 来 处 理 并 提取 图 像 数 据 并 运行 模型 ， 然 后 在 IPython 中 展示 实际 的 图 片 。 


可 以 打开 新 的 浏览 器 窗口 来 独立 运行 一 个 IPython NoteBook: 


> ipython notebook 


注意 ， 如 果 你 在 使 用 Python NoteBook， 首 先 应 该 执行 下 面 的 代码 片段 来 保 
证 图 片 可 以 被 每 个 notebook 单元 格 ( 包含 $s 字 符 ) 内 赃 显 示 : spylab inline。 


也 可 以 启动 没有 浏览 器 的 简单 IPython 终端 ， 用 下 面 的 命令 开启 pylab 绘制 功能 : 


> ipython -pylab 





在 写本 书 的 时 候 ， 降 维 技术 在 MLlib 中 只 支持 Scala 和 Java 语言 ， 所 以 我 们 继续 使 用 Scala 
Sparkshell 来 运行 模型 。 因 此 ， 你 不 需要 在 控制 台中 运行 PySpark。 





本 章 我 们 以 Python 脚本 和 IPython NoteBook 的 形式 提供 了 所 有 的 Python 代 
码 。 关 于 安装 IPython 的 教程 ， 请 参照 IPython 代码 包 。 


使 用 matplotlib 的 imread 和 imshow 方法 ,通过 我 们 之 前 提取 的 路 径 ,可 以 展示 出 图 片 : 


from PIL import Image, JImageFilter 

path = "/PATH/1lfw/PATH/lfw/Aaron_FEckhart/Aaron_ FEckhart_0001.jpg" 
ae = imread (path) 

imshow (ae) 
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你 应 该 能 看 到 如 下 所 示 的 截屏 : 





def main(): 
path = PATH + "/Lfw/Aaron Eckhart/Aaron Eckhart 96961.jpg" 


im = Image.open(path) 
im.show() 


tmp_path = PATH + "/aeGray.jpg" 
ae gary = Image.open(tmp_path) 
ae gary.show() 


pc = np.Loadtxt(PATH + "/pc.csv", delimiter=",") 
print(pc.shape) 


# (2599，1I9) 


plLot_gaLLery(pc，59，59) 














3. 提取 面部 图 片 作为 向 量 


图 像 处 理 的 整个 方法 超出 了 本 书 的 讨论 范围 , 但 我 们 需要 知道 一 些 基础 知识 来 继续 学 习 。 每 
一 个 彩色 图 片 可 以 表示 成 一 个 三 维 的 像素 数组 或 矩阵 。 前 两 维 ， 即 x、y 坐标 ， 表 示 每 个 像素 的 
位 置 ， 第 三 个 维度 表示 每 个 像素 的 红 、 蓝 、 绿 (RGB ) 三 元 色 的 值 。 


一 个 灰 度 图 片 的 每 个 像素 仅仅 需要 一 个 值 (不 需要 RGB 值 ) 来 表示 ， 因 此 可 以 简单 表示 为 
二 维和 矩阵 。 很 多 图 像 处理 和 与 图 片 相 关 的 机 器 学 习 任 务 经 常 只 处 理 灰 度 图 片 。 我 们 将 通过 先 把 彩 
色 图 片 转换 为 灰 度 图 片 来 达到 这 个 目的 。 

在 机 器 学 习 任 务 中 , 还 有 一 种 常用 的 方式 是 把 图 片 表示 成 一 个 向 量 ， 而 不 是 和 矩阵。 我 们 通过 
连接 矩阵 的 每 一 行 〈 或 者 每 一 列 ) 来 形成 一 个 长 向 量 ( 称 为 重 塑 )。 这 样 每 一 个 灰 度 图 片 矩 阵 会 
被 转换 为 特征 向 量 ， 作 为 机 器 学 习 模 型 的 输入 。 

我 们 很 幸运 ，Java 集成 的 AWT ( 抽象 窗口 工具 库 ) 包含 很 多 基本 的 图 像 处 理 函 数 。 我 们 将 
使 用 java.awt 类 定义 一 些 功能 函数 来 处 理 图 片 。 

() 载 人 图 片 


第 一 个 函数 从 文件 中 读 取 图 片 : 


















































import java.awt.image.BufferedImage 

def loadImageFromFile(path: String): BufferedIimage = { 
import javax.imageio.ImageIO 
import java.io.File 
ImageIO.read (new File(path)) 

} 


上 述 代 码 位 于 Util.scala 中 。 


这 将 返回 一 个 java .awt .image.BufferedImage 类 的 实例 ， 它 存储 图 片 数 据 并 提供 很 多 
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有 用 的 方法 。 我 们 在 Spark shell 中 加 载 第 一 幅 图 片 来 测试 它 : 


val aePath = "/PATH/lfw/Aaron_ Eckhart/Aaron_ Eckhart_0001.jpg" 
val aeImage = loadIimageFromFile(aePath) 


你 将 会 看 到 shell 中 显示 的 图 片 细 市 : 














aeImage: java.awt.image.BufferedImage = BufferedImage@f41266e: type = 
5 ColorModel: #pixelBits = 24 numComponents = 3 color space = 
java.awt .color.ICC ColorSpace@7e420794 transparency = 1 has alpha = 
false isAlphaPre = false ByteInterleavedRaster: width = 250 height = 
250 #numDataElements 3 dataOoff[0] = 2 


这 里 有 很 多 信息 。 对 我 们 来 说 特别 有 意义 的 是 图 片 的 宽 和 高 都 是 250 像素 。 并 且 我 们 可 以 看 
到 ， 颜 色 组 件 (就 是 RGB 值 ) 数 为 3。 


(2) 转换 为 灰 度 图 片 并 改变 图 片 尺寸 
我 们 定义 的 下 一 个 函数 将 读 取 前 一 个 函数 加 载 的 图 片 ,把 图 片 从 彩色 变 为 灰 度 ,并 改变 图 上 
























































这 一 步 并 不 是 必需 的 ,但 是 为 了 效率 在 很 多 场景 下 这 两 步 都 会 涉及 。 使 用 RGB 彩色 图 片 而 
不 是 灰 度 图 片 会 使 处 理 的 数据 量 增 加 三 倍 。 类 似 地 , 较 大 的 图 片 也 大 大 增加 了 处 理 和 存储 的 负担 。 
我 们 原始 的 250 x 250 图 片 每 幅 包 含 187 500 个 使 用 三 原色 的 数据 点 。 对 于 1055 幅 图 片 而 言 ， 就 
是 197 812 500 个 数据 点 。 即 使 以 整数 值 存储 , 每 一 个 值 占用 4 字 节 内 存 , 也 会 占用 800 MB 内 存 。 
你 会 看 到 ， 图 像 处 理 任务 很 容易 成 为 消耗 大 量 内 存 的 任务 。 


如 果 转 换 成 灰 度 图 片 ， 并 改变 图 片 尺 寸 ， 比 如 50 像素 x 50 像素 大 小 ， 我 们 仅仅 需要 2500 个 
数据 点 来 存储 每 幅 图 片 。1055 张 图 片 大 概 等 同 于 10 MB 的 内 存 ， 更 适合 我 们 演示 的 需要 。 


下 面 定 义 一 个 处 理 函 数 。 我 们 将 使 用 java .awt . image 包 一 步 做 完 灰 度 转换 和 尺寸 改变 : 


















































def processImage (image: BufferedIimage, width: Int, height: Int): 
BufferedIimage = { 

val bwImage = new BufferedImage 

(width, height, BufferedIimage.TYPE_ BYTE_GRAY) 

val g = bwImage.getGraphics() 

g.drawImage (image, 0, 0, width, height, null) 

g.dispose() 

bwImage 


} 


函数 的 第 一 行 创建 了 一 个 指定 宽 、 高 和 灰 度 颜色 模型 的 新 图 片 。 第 三 行 从 原始 图 片 绘制 出 灰 
度 图 片 。drawImage 方法 负责 颜色 转换 和 尺寸 变化 。 最 后 我 们 返回 了 一 个 新 的 处 理 过 的 图 片 。 


测试 示例 图 片 的 输出 。 转 换 为 灰 度 图 片 并 将 尺寸 改变 为 100 像素 x 100 像素 : 


val grayImage = processImage (aeImage, 100, 100) 
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控制 台中 应 该 出 现 以 下 输出 : 


grayImage: 
type 10 ColorModel: 


#pixelBits 


java.awt .color.ICC ColorSpace@5cd9d8e9 transparency 
false ByteInterleavedRaster: width 


false isAlphapPre 
100 #numDataElements 1 dataoff [0] 




















java.awt .image.BufferedImage 


BufferedImage@21f8ea3b: 
8 numComponents 1 color space 
1 has alpha 


100 height 


0 








正如 输出 所 示 ， 图 片 的 高 和 宽 确 实 是 100， 颜 色 组 件数 也 变 成 了 1。 
然后 将 处 理 过 的 图 片 文件 存储 到 临时 路 径 ， 这样 我 们 可 以 在 Python 应 用 中 读 取 回 来 并 显示 。 


import javax.imageio.ImageIO 
import java.io.File 


ImageIO.write(grayImage, "jpg", 





你 应 该 看 到 控制 台 显示 了 true, 说 明 我 们 成 功 提 





new File("/tmp/aeGray .jpg")) 





I 
LY 











灰 度 图 片 aeGreyjpg 保存 到 了 /mp 文件 夹 。 


最 后 在 Python 中 使 用 matplotlib 读 取 并 显示 图 片 ,在 IPython NoteBook 或 者 shell 中 输入 下 面 





的 代码 ( 这 些 操作 会 打开 新 的 终端 窗口 ): 

tmpPath = 
aeGary 
imshow (aeGary, 


"/tmp/aeGray .jpg" 
imread (tmpPath) 
cmap=plt .cm.gray) 











图 片 的 质量 比 


























这 样 就 会 显示 出 图 片 〈 再 次 注意 ， 我 们 这 里 就 不 展示 图 片 了 )。 可 以 看 到 灰 度 
原来 的 图 片 稍 差 。 另 外 ， 你 会 发 现 坐 标的 尺度 也 是 不 同 的 ，250 x 250 的 原始 尺寸 已 经 被 更 新 为 
100 x 100 的 新 尺寸 。 

对 应 的 图 片 如 下 : 

def main(): 
path = PATH + "/lfw/Aaron Eckhart/Aaron Eckhart 6661.jpg" 
im = Image.open(path) 
im.show() 
tmp_path = PATH + "/aeGray.jpg" 
ae gary = Image.open(tmp path) 
ae_gary.show() 
pc = np.loadtxt(PATH + "/pc.csv", delimiter=",") 
Pr ne (Pe Snape) 
plot gallery(pc, 50, 59) 
(3) 提取 特征 向 量 


处 理 流 程 的 最 后 一 步 是 提取 真实 的 特 生 
灰 度 像素 数据 将 作为 特征 。 我 们 将 通过 打 平 
类 为 此 提供 
































F 向 量 作为 我 们 降 维 模型 的 输入 。 正 如 之 前 提 到 的 , 纯 
二 维 的 像素 矩阵 来 构造 一 维 的 向 量 。BuffereqImage 











t 了 一 个 工具 方法 ， 可 以 在 我 们 的 函数 中 使 用 : 
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def getPixelsFromImage (image: BufferedqImage) : Array[Double] = { 
val width = image.getWidthn 
val height = image.getHeight 
val pixels = Array.ofDim[Double] (width * height) 
image.getData.getPixels(0, 0, width, height, pixels) 

} 


之 后 ， 我 们 在 一 个 功能 函数 中 组 合 这 3 个 函数 ， 接 受 一 个 图 片 文 件 位 置 以 及 期 望 的 宽 和 高 ， 
返回 一 个 包含 像素 数据 的 Array [Doubel] 值 : 


def extractPixels (path: String, width: Int, height: Int) : 
Array [Double] = { 
val raw = loadImageFromFile (path) 
Val processed = processImage (raw, width, height) 
getPixelsFromImage (processed) 


} 


把 这 个 函数 应 用 到 包含 图 片 路 径 的 RDD 的 每 一 个 元 素 上 将 产生 一 个 新 的 RDD， 新 的 RDD 
包含 每 张 图 片 的 像素 数据 。 让 我 们 通过 下 面 的 代码 看 看 开始 的 几 个 元 素 : 
































val pixels = files.map(f => extractPixels(f, 50, 50)) 
println(pixels.take(10) .map(_.take(10) 
lo Ve a Inlet Lr NY ) 


你 会 看 到 如 下 的 输出 : 


0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0, 
241.0,243.0,245.0,244.0,231.0,205.0,177.0,160.0,150.0,147.0, 
253.0,253.0,253.0,253.0,253.0,253.0,254.0,254.0,253.0,253.0, 


.0,240.0,240.0,240.0,240.0, 
.0,0.0, 


最 后 一 步 是 为 每 一 张 图 片 创建 MLlib 向 量 对 象 。 我 们 将 缓存 RDD 来 加 速 之 后 的 计算 : 


import org.apache.spark.mllib.linalg.Vectors 

// setName 函数 会 生成 一 个 直观 的 名 称 ， 该 名 称 会 显示 在 Spark Web UI 上 
val vectors = pixels.map(p => Vectors.dqense(D)) 
vectors.setName ("image-vectors") 

// 记得 缓存 该 变量 来 提速 


Vectors .Cache 























我 们 曾 使 用 setName 函数 来 给 RDD 指定 一 个 名 字 。 这 里 ， 我 们 起 名 为 
image-vectors。 这 会 使 之 后 在 Spark 的 Web 界 面 中 更 容易 识别 它 。 


4. 正则 化 


在 运行 降 维 模型 ( 尤其 是 PCA ) 之 前 , 通常 会 对 输入 数据 进行 标准 化 。 正 如 我 们 在 第 6 章 使 
用 Spark 创建 分 类 模型 时 做 的 , 我 们 将 使 用 MLlib 的 特征 包 提 供 的 内 建 Scanqardscaler 函数 。 
在 这 个 例子 中 ， 我 们 将 只 从 数据 中 提取 平均 值 : 
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import org.apache.spark.mllib.linalg.Matrix 

import org.apache.spark.mllib.linalg.distributed.RowMatrix 

import org.apache.spark.mllib.feature.StandardScaler 

val scaler = new StandardScaler (withMean = true, withSstqd = false) .fit(vectors) 


Standard Scalar: 借助 从 训练 数据 集中 抽样 的 按 列 统 计 信 息 ， 会 对 每 一 个 特 
征 值 减 去 其 所 在 列 的 均值 ， 再 缩放 到 单位 方差 ( unit variance )。 
全 withMean 参数 : 默认 为 False。 对 应 缩放 前 是 否 要 将 数据 按 平均 值 对 齐 。 
其 目标 输出 是 稠密 的 ， 故 输入 不 可 为 稀 朴 矩阵 ， 否 则 会 引发 异常 
withStqd 参数 : 默认 为 True。 该 参数 对 应 是 否 按 单位 方差 缩放 数据 。 


standardSscalar 类 的 定义 如 下 : 


class StandardScaler @Since("1.1.0") (withMean: Boolean,withSstd: Boolean) 
extends Logging 


调用 fit 函数 会 导致 基于 RDD [Vector] 的 计算 。 你 应 该 可 以 看 到 如 下 的 输出 : 





14/09/21 11:46:58 INFO SparkContext: Job finished: reduce at 
RDDFunctions.scala:111, took 0.495859 s 


scaler: org.apache.spark.mllib.feature.StandardScalerModel = 
org.apache.spark.mllib.feature.StandardScalerModel@6bblalal 


注意 ,对 于 稠密 的 输入 数据 可 以 提取 平均 值 。 在 图 像 处 理 中 , 输入 数据 总 是 
的 : 筒 密 的 ， 因 为 每 个 像素 都 有 一 个 值 。 但 是 对 于 黎 玖 数据 ,提取 平均 值 将 会 使 之 变 
稠密 。 对 于 很 高 维度 的 输入 , 这 将 很 可 能 耗 尽 可 用 内 存 资源 , 所 以 是 不 建议 使 用 的 。 


， 我 们 将 使 用 返回 的 scaler 来 转换 原始 的 图 像 向 量 ， 让 所 有 向 量 减 去 当前 列 的 平均 值 : 


val scaledVectors = Vectors .map(V => Scaler.transform(V) ) 


我 们 之 前 提 到 改变 尺寸 的 灰 度 图 像 将 会 占用 大 概 10 MB 的 内 存 。 
用 监控 台 存储 页 面 中 看 到 内 存 使 用 情况 : http:/localhost:4040/storage/。 


因为 我 们 给 了 图 像 向 量 RDD 一 个 友好 的 名 字 image-vectors， 所 以 你 应 该 会 看 到 如 下 图 
所 示 的 信息 (注意 我 们 正在 使 用 的 是 vector [Double] ， 每 一 个 元 素 占 用 8 i 4 
字 节 ， 因 此 实际 需要 20 MB 的 内 存 )。 

















hl 


改 





有 实 上 上， 你 可 以 在 Spark 









































ee Spark shell - Storage 十 ue 
|€ ) ® localhost.4040/storage/ C | (Bg coooe Q) 食 自 旧 会 | 三 
Spaik: Stages Storage | Environment Executors Spark shell application UI 
Storage 
RDDName Storage Level Cached Partitions Fraction Cached SizeinMemory SizeinTachyon Size on Disk 
image-vectors Memory Deserialized 1x Replicated = 2 100% 202MB 00B 00B 














内 存 中 图 像 向 量 的 大 小 
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9.3 训练 降 维 模型 


MLlib 中 的 降 维 模型 需要 向 量 作为 输入 。 但 是 ， 并 不 像 聚 类 直接 处 理 RDD [Vector] ，PCA 
和 SVD 的 计算 是 通过 提供 基于 RowMatrix 的 方法 实现 的 (区别 主 要 是 语法 不 同 ，RowMatrix 
也 仅仅 是 一 个 RDD[Vector] 的 简单 封装 )。 






































在 LFW 数据 集 上 运行 PCA 


因为 我 们 已 经 从 图 片 的 像素 数据 中 提取 出 了 向 量 ， 现 在 可 以 初始 化 一 个 新 的 RowMatrix， 
并 调用 computePrincipalComponents 来 计算 我 们 的 分 布 式 矩 阵 的 前 大 个 主 成 分 。 


调用 computePrincipalComponents 因数 时 ， 移 阵 的 各 行 对 应 不 同 的 观察 (样本 )， 各 列 
代表 不 同 的 变量 (特征 )。 和 矩阵 的 行 数据 并 不 需要 实现 中 心 对 齐 ， 各 列 数据 的 平均 值 也 不 需要 一 
定 为 0。 但 矩阵 的 列 数 不 能 超过 65 535。 该 函数 的 参数 kK 对 应 返回 前 个 主 成 分 ， 返回 值 为 一 个 
n 行 k 列 的 矩阵 。 该 返回 值 矩 阵 存 储 在 本 地 。 其 每 一 列 对 应 一 个 主 成 分 ， 且 各 列 按 其 系数 降序 排 
列 。Scala 调用 如 下 : 





























import org.apache.spark.mllib.linalg.Matrix 

import org.apache.spark.mllipb.linalg.distributed.RowMatrix 
val matrix = new RowMatrix(scaledVectors) 

val' KK =."10 

val pc = matrix.computePrincipalComponents (K) 


运行 模型 的 时 候 ， 将 会 在 控制 台 看 到 大 量 的 输出 。 


如 果 看 到 这 样 的 警告 ,WARN LAPACK: Failed to load implementation from: 
com.github.fommil.netlib.NativeSystemLAPACK 或 者 WARN LAPACK: Failed to 
load implementation from: com.github.fommil.netlib. NativeRefLAPACK ， 你 可 以 放 
6» 心地 忽略 掉 。 
这 段 警告 是 说 MLlib 使 用 的 线性 代数 库 不 能 加 载 本 地 库 。 这 时 ， 基 于 Java 
的 备 选 库 会 被 使 用 ， 虽 然 会 慢 一 点 ， 但 对 我 们 的 例子 来 说 一 点 都 不 用 担心 。 


模型 训练 结束 后 ， 应 该 会 在 控制 台 看 到 类 似 下 面 的 结果 : 





pc: org.apache.spark.mllib.linalg.Matrix = 
-0.023183157256614906 -0.010622723054037303 ... (10 total) 
-0.023960537953442107 -0.011495966728461177 
-0.024397470862198022 -0.013512219690177352 
-0.02463158818330343 -0.014758658113862178 
-0.024941633606137027 -0.014878858729655142 
-0.02525998879466241 -0.014602750644394844 
-0.025494722450369593 -0.014678013626511024 
-0.02604194423255582 -0.01439561589951032 
-0.025942214214865228 -0.013907665261197633 
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-0.026151551334429365 -0.014707035797934148 
-0.026106572186134578 -0.016701471378568943 
-0.026242986173995755 -0.016254664123732318 
-0.02573628754284022 -0.017185663918352894 
-0.02545319635905169 -0.01653357295561698 
-0.025325893980995124 -0.0157082218373399... 


1. 可 视 化 特征 脸 
现在 我 们 已 经 训练 了 自己 的 PCA 模型 , 但 结果 如 何 ?” 让 我 们 分 析 一 下 结果 和 矩阵 的 不 同 维度 : 


Val rows = pc.numRows 
Val cols = Polmmtola 
println(rows, cols) 


正如 你 从 控 甫 





(2500,10) 


因为 每 张 图 片 的 维度 是 50 x 50， 所 以 我 们 得 到 了 前 10 个 主 成 分 向 量 ， 每 一 个 向 量 的 维度 都 
和 输入 图 片 的 维度 一 样 。 可 以 认为 这 些 主 成 分 是 一 组 包含 了 原始 数据 主要 变化 的 隐 含 〈 隐藏 ) 





特征 。 


0 




















| 台 输出 看 到 的 结果 ， 主 成 分 矩阵 有 2500 行 、10 列 : 

















在 面部 识别 和 图 像 处 理 中 ， 这 些 主 成 分 经 常 被 称 为 特征 脸 ， 这 是 因为 PCA 


和 原始 数据 的 协 方差 矩阵 的 特征 值 分 解密 切 相 关 。 参 见 https://en.wikipedia.org/ 
wiki/Eigenface 获得 更 多 细节 。 








因为 每 一 个 主 成 分 都 有 和 原始 图 片 相同 的 维度 , 所 以 每 一 个 成 分 本 身 可 以 看 作 一 张 图 片 , 这 
使 得 我 们 下 面 要 做 的 可 视 化 特征 脸 成 为 可 能 。 


正如 之 前 本 书 中 经 常 做 的 ,我们 使 用 Breeze 线 性 函数 库 以 及 Python 的 numpy 及 matplotlib 
的 函数 来 可 视 化 特征 脸 。 


首先 ， 我 们 使 用 变量 pc 

















(一 个 MLlib 和 矩阵 ) 创建 一 个 Breeze DenseMatrix: 


import breeze.linalg.DenseMatrix 
val pcBreeze = new DenseMatrix(rows, cols, pc.toArray) 


Breeze 的 1inalg 包 中 提供 了 一 个 实用 的 函数 ， 可 以 把 矩阵 写 到 CSV 文件 中 。 我 们 将 使 用 
它 把 主 成 分 保存 为 一 个 临时 CSV 文件 : 

















import breeze.linalg.csvwrite 
csvwrite(new File("/tmp/pc.csv"), pcBreeze) 


之 后 ,我 们 将 在 IPython 中 加 载 矩 阵 ， 并 以 图 片 的 形式 可 视 化 主 成 分 。 地 运 的 是 ，numpy 提 
供 了 从 CSV 文件 中 读 取 和 矩阵 的 功能 函数 


pes: = TD loadtxt ("/tm/ DCCSv™, delimiters", ") 
print (pcs.shape) 
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你 应 该 看 到 下 面 的 和 输出， 确认 读 取 的 矩阵 和 保存 的 矩阵 维度 相同 : 


(2500, 10) 


我 们 需要 使 用 功能 函数 显示 图 片 。 像 这 样 定义 函 


数 : 


def plot_gallery (images, h, w, n_row=2, n_col=5): 
""Helper function to plot a gallery of portraits""" 


plt.figure (figsize=(1.8 * n col, 2.4 * 


plt.subplots_adjust (bottom=0, left=.01, 


hspace=.35) 
for i in range(n row * n col): 
plt.subplot (n_row, n_col, i + 1) 


plt.imshow(images[:, i].reshapel(l(h, 
plt.title("Eigenface %d" % (i + 1), 


plt.xticks(()) 
plt.yticks(()) 


n_row)) 
ight=799 Top=:90y 


Ww)), cmap=plt.cm.gray) 
size=12) 


DD 这 个 函数 取 自 scikit-learn 文档 的 LFW 数据 集 样 例 代 码 , 网 址 为 :http:/scikit- 


learn.org/stable/auto_examples/applications/plot face recognition.html。 


现在 ,我 们 将 使 用 这 个 函数 绘制 前 10 个 特征 脸 : 


plot_gallery (pcs, 50, 50) 











结果 如 下 图 所 示 : 
特征 脸 2 特征 脸 5 
特征 脸 6 一 特征 脸 8 特征 脸 9 特征 脸 10 


F 








FS 











前 10 个 特征 脸 


2. 解读 特征 脸 
通过 观察 处 理 过 的 图 片 ， 我 们 可 以 看 到 PCA 模 








型 有 效 地 提取 出 了 反复 出 现 的 变化 模式 ， 表 
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现 了 面部 图 片 的 各 种 特征 。 就 像 聚 类 模型 一 样 ， 每 个 主 成 分 都 是 可 以 解释 的 。 
和 聚 类 一 样 ， 并 不 总 能 直接 精确 地 解释 每 个 主 成 分 代表 的 意义 。 


从 这 些 图 片 中 我 们 可 以 看 出 ， 有 些 图 像 好 像 选择 了 方向 性 的 特征 ( 例如 图 像 6 和 图 像 9 )， 
有 些 集中 表现 了 发 型 ( 例如 图 像 4、 图 像 5、 图 像 7 和 图 像 10 )， 而 其 他 的 似乎 和 面部 特征 更 相 
关 ， 比 如 眼睛 、 上 鼻子 和 嘴 ( 例如 图 像 1、 图 像 7 和 图 像 9 )。 


























9.4 使 用 降 维 模型 


用 这 种 方式 可 视 化 一 个 模型 的 结果 是 很 有 意思 的 ; 但 是 降 维 方法 最 终 的 目标 则 是 要 得 到 数据 
更 加 压缩 化 的 表示 ,并 能 包含 原始 数据 之 中 重要 的 特征 和 变化 。 为 了 做 到 这 一 点 ,我 们 需要 通过 
使 用 训练 好 的 模型 ， 把 原始 数据 投影 到 用 主 成 分 表示 的 新 的 低 维 空间 上 。 















































9.4.1 在 LFW 数据 集 上 使 用 PCA 投影 数据 


我 们 将 通过 把 每 一 个 LFW 图 像 投 影 到 10 维 的 向 量 上 来 演示 这 个 概念 。 用 矩阵 乘法 把 图 像 矩 
阵 和 主 成 分 矩阵 相 乘 来 实现 投影 。 因 为 图 像 矩 阵 是 分 布 式 的 MLlib RowMatrix， 所 以 Spark 帮助 
我 们 实现 了 分 布 式 计算 的 multiply 函数 : 






































val projected = matrix.multiply (pc) 
println(projected.numRows, projected.numCols) 


这 将 产生 下 面 的 输出 : 

(1055,10) 

注意 每 幅 2500 维度 的 图 像 已 经 被 转换 成 为 一 个 大 小 为 10 的 向 量 。 让 我 们 看 看 前 几 个 向 量 : 
println(projected.rows.take(5) .mkString("\n")) 

输出 如 下 : 


[2648.9455749636277,1340.3713412351376,443.67380716760965, 
-353.0021423043161,52.53102289832631,423.39861446944354, 
413.8429065865399,-484.18122999722294,87.98862070273545, 
-104.62720604921965] 
[172.67735747311974,663.9154866829355,261.0575622447282, 
-711.4857925259682,462.7663154755333,167.3082231097332，, 
-71.44832640530836,624.4911488194524,892.3209964031695, 
-528.0056327351435] 
[-1063.4562028554978,388.3510869550539,1508.2535609357597, 
361.2485590837186,282.08588829583596,-554.3804376922453, 
604.6680021092125,-224.16600191143075,-228.0771984153961, 
-110.21539201855907] 
[-4690.549692385103,241.83448841252638,-153.58903325799685, 
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-28.26215061165965,521.8908276360171,-442.0430200747375, 
-490.1602309367725,-456.78026845649435,-78.79837478503592, 
70.62925170688868] 
[-2766.7960144161225,612.8408888724891,-405.76374113178616, 
-468.56458995613974,863.1136863614743,-925.0935452709143, 
69.24586949009642,-777.3348492244131,504.54033662376435, 
257.0263568009851] 


这 些 以 向 量 形式 表示 的 投影 后 的 数据 可 以 作为 男 一 个 机 咒 学 习 模 型 的 输入 。 例如 , 我 们 可 以 
通过 使 用 这 些 投影 后 的 脸 的 投影 数据 和 一 些 没 有 脸 的 图 像 产 生 的 投影 数据 , 共同 训练 一 个 面部 识 
别 模型 。 另外 也 可 以 训练 一 个 多 分 类 识别 器 ,每 个 人 是 一 个 类 ， 从 而 创建 一 个 识别 某 个 输入 脸 是 
否 是 某 个 人 的 识别 模型 。 






































9.4.2 PCA 和 SVD 模型 的 关系 

我 们 之 前 提 到 PCA 和 SVD 有 着 密切 的 联系 。 事实 上 ， 可 以 使 用 SVD 恢复 出 相同 的 主 成 分 
向 量 ， 并 且 应 用 相同 的 投影 矩阵 投射 到 主 成 分 空间 。 

在 我 们 的 例子 中 ，SVD 计算 产生 的 右 奇 异 向 量 等 同 于 我 们 计算 得 到 的 主 成 分 。 可 以 通过 在 


图 像 矩 阵 上 计算 SVD 并 比较 右 奇 异 向 量 和 PCA 的 结果 说 明 这 一 点 。 和 PCA 一 样 ，SVD 的 计算 
可 以 通过 分 布 式 RowMatrix 提供 的 函数 完成 : 






































val svd = matrix.computeSVD(10, computeU = true) 

println(s"U dimension: (${svd.U.numRows}, S${svd.U.numCols})") 
println(s"Ss dimension: (S${svd.s.size}, )") 

println(s"V dimension: (${svd.V.numRows}, S${svd.V.numCols})") 


可 以 看 到 ，SVD 返回 一 个 1055 x 10 维 的 矩阵 UV、 一 个 长 度 为 10 的 奇异 值 向 量 ,8 和 一 个 2500 x 
10 维 的 右 奇异 值 矩 阵 V: 


U dimension: (1055，10) 
S dimension: (10，) 
V dimension: (2500，10) 


和 矩阵 上 和 PCA 的 结果 完全 一 样 (不 考虑 正 负 号 和 浮 点 数 误 差 )。 可 以 通过 使 用 一 个 功能 函数 
大 致 比较 两 个 矩阵 的 向 量 数据 来 确定 这 一 点 : 


def approxEqual (arrayl: Array[Double]l ，artray2: ArraylDoublel], 
tolerance: Double = le-6): Boolean = { 
// 注意 这 里 略 去 了 主 成 分 的 迹 (Sign) 
val bools = arrayl.zip(array2) .map { case (v1，V2) => if 
(math.abs (math.abs (v1) - math.abs(v2)) > le-6) false else true } 
bools.fold(true)(_ & _) 
} 
我 们 在 一 些 数 据 上 测试 这 个 函数 : 


printin(approxEqual (Array (1.0, 2.0, 3.0), Array (1.0, 2.0, 3.0))) 
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输出 如 下 : 

true 

来 尝试 另 一 组 测试 数据 : 

Dintln(approxEaual (Array (1.0, 2.0, 3.0), Array(3.0, 2.0, 1.0))) 

输出 如 下 : 

false 

最 后 ， 可 以 这 样 使 用 我 们 的 相等 函数 : 

println(approxEqual (svd.V.toArray, pc.toArray)) 

输出 如 下 : 

true 

SVD 和 PCA 都 能 计算 主 成 分 和 相应 的 特征 值 或 奇异 值 。 计 算 特 征 向 量 时 ， 多 出 的 对 协 方差 
和 矩阵 的 计算 可 能 会 带 入 数值 舍 入 误差 ( numerical round-offerror )。PCA 需要 数据 进行 中 心 化 ， 即 
去 均值 处 理 ， 而 SVD 无 此 要 求 。 

另外 一 个 相关 性 体现 在 : 矩阵 UV 和 向 量 8 (或 者 严格 来 讲 ， 对 角 和 矩阵 8 ) 的 乘积 和 PCA 中 
用 来 把 原始 图 像 数据 投影 到 10 个 主 成 分 构成 的 空间 中 的 投影 矩阵 相等 。 


下 面 会 体现 上 述 点 。 我 们 首先 用 Breeze 来 将 口中 的 各 向 量 与 点 乘 ( 对 应 元 素 相 乘 )。 然后 
比较 PCA 投影 出 的 各 个 向 量 与 SVD 投影 出 的 相应 向 量 ， 再 求 出 相等 的 向 量 对 的 个 数 : 














val breezeS = breeze.linalg.DenseVector(svd.s.toArray) 
val projectedqSVD = svd.U.rows.map { Vv => 
val breezeV = breeze.linalg.DenseVector(v.toArray) 
val multV = breezeV :* breezeS 
Vectors.dense (multV.data) 
} 
projected.rows.zZip(projectedSsVvD) .map { case (vl, v2) => 
approxEqual (v1l .toArray, v2.toArray) }.filter(b => true) .count 


运行 结果 是 1055， 因 此 基本 可 以 确定 PCA 投影 后 的 每 一 行 和 SVD 投影 后 的 每 一 行 相等 。 








和’ 注意 在 前 面 的 代码 中 ， 加 粗 的 :* 运 算 符 表示 对 向 量 执行 对 应 元 素 和 元 素 的 乘法 。 


9.5 评价 降 维 模型 


PCA 和 SVD 都 是 确定 性 模型 ， 就 是 对 于 给 定 输 入 数据 ， 总 可 以 产生 确定 结果 的 模型 。 这 和 我 
们 之 前 看 到 的 很 多 依赖 一 些 随机 因素 的 模型 不 同 〈 大 部 分 是 由 模型 的 初始 化 权重 向 量 等 原因 导致 
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这 两 个 模型 都 可 以 返回 多 个 主 成 分 或 者 奇异 值 ， 因 此 控制 模型 的 唯一 参数 就 是 f。 就 像 聚 类 
模型 一 样 ， 增 加 大 总 是 可 以 提高 模型 的 表现 〈 对 于 聚 类 ， 表 现在 相对 误差 函数 值 ; 对 于 PCA 和 
SVD， 整 体 的 不 确定 性 表现 在 个 成 分 上 )。 因 此 ,选择 的 值 需要 折 中 ， 看 是 要 包含 尽量 多 的 
数据 结构 信息 ， 还 是 要 保持 投影 数据 的 低 维度 。 





在 LFW 数据 集 上 估计 SVD 的 k 值 


通过 观察 在 我 们 的 图 像 数 据 集 上 计算 SVD 得 到 的 奇异 值 ， 可 以 确定 每 次 运行 中 奇异 值 都 相 
同 ， 并 且 是 按照 递减 的 顺序 返回 的 ， 如 下 所 示 。 





























val sValues = (1 to 5).map { i => matrix.computeSVvD(i, computeU = 
false).s } 
sValues.foreach (println) 


这 会 生成 类 似 下 面 的 输出 : 


[54091.00997110354] 
[54091.00997110358,33757.702867982436] 
[54091.00997110357,33757.70286798241,24541.193694775946] 
[54091.00997110358,33757.70286798242,24541.19369477593, 
23309.58418888302] 
[54091.00997110358,33757.70286798242,24541.19369477593, 
23309.584188882982,21803.09841158358] 


奇异 值 
在 降 维 时 ,奇异 值 能 作为 合适 精度 取舍 的 参考 ， 让 我 们 在 时 间 和 空间 之 间 取 得 平衡 。 


为 了 估算 SVD (和 PCA ) 做 聚 类 时 的 左 值 ， 以 一 个 较 大 的 大 的 变化 范围 绘制 一 个 奇异 值 图 
是 很 有 用 的 。 可 以 看 到 ， 每 增加 一 个 奇异 值 时 增加 的 变化 总 量 是 否 基本 保持 不 变 。 


首先 计算 最 大 的 300 个 奇异 值 : 


val svd300 = matrix.computeSvD(300，computeU = false) 

val sMatrix = new DenseMatrix(1, 300, svd300.s.toArray) 

println(sMatrix) 

csvwrite(new Filel( 
"/home/ubuntu/work/ml-resources/spark-ml/Chapter_09/data/s.csv"), sMatrix) 


再 把 奇异 值 对 应 的 向 量 5S 写 到 临时 CSV 文件 (正如 之 前 我 们 在 处 理 特征 脸 的 矩阵 时 所 做 的 ) 
并 且 在 了 Python 控制 台中 读 回 ， 为 每 个 大 绘制 对 应 的 奇异 值 图 : 


file name = '/home/ubuntu/work/ml-resources/spark-ml/Chapter_09/data/s.csyv' 
data = np.genfromtxt (file name, delimiter=',') 

plt.plot (data) 

plt.suptitle('Variation 300 Singular Values ') 

plt.xlabel ('Singular Value No') 

plt.ylabel ('Variation') 

plt.show!() 
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你 应 该 可 以 看 到 类 似 下 图 所 示 的 结果 : 





前 300 个 奇异 值 
在 前 300 个 奇异 值 的 累积 和 变化 曲线 中 可 以 看 到 一 个 类 似 的 模式 ( 我们 对 y 轴 取 了 log 对 数 ): 


plt.plot (cumsum (data)) 

plt.yscale('log') 

plt.suptitle('Cumulative Variation 300 Singular Values ') 
plt.xlabel('Singular Value No') 

plt.ylabel('Cumulative Variation') 

plt.show!() 


上 述 绘图 的 完整 Python 代码 参见 : https://github.com/ml-resources/spark-ml/tree/branch-ed2/ 
Chapter 09/2.0.x/python/org/sparksamples。 


前 300 个 奇异 值 累积 和 的 曲线 如 下 图 所 示 。 


前 300 个 奇异 值 的 累积 和 
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可 以 看 到 , 在 大 值 的 某 个 区 间 之 后 〈 本 例 中 大 概 是 100 )， 图 形 基本 变 平 。 这 表明 与 某 一 
值 相对 应 的 奇异 值 (或 者 主 成 分 ) 可 能 足以 解释 原始 数据 的 变化 。 


当然 , 如 果 使 用 降 维 来 帮助 我 们 提高 另 一 个 模型 的 性 能 , 我 们 可 以 使 用 和 那 

个 模型 相同 的 评价 模型 来 帮助 我 们 选择 上 值 。 例 如， 我 们 可 以 使 用 AUC 指标 和 

3 交叉 验证 , 来 为 分 类 模型 选择 模型 参数 和 为 降 维 模 型 选择 上 值 , 但 是 这 会 耗费 更 
多 的 计算 资源 ， 因 为 我 们 必须 重 算 整 个 模型 的 训练 和 测试 过 程 。 


9.6 小 结 


在 这 一 章 ， 我 们 学 习 了 两 个 新 的 用 于 降 维 的 无 监督 学 习 模 型 ， 即 PCA 和 SVD。 我 们 了 解 了 
如 何 从 面部 图 像 数 据 中 提取 特征 来 训练 模型 。 通过 特征 脸 可 视 化 模型 的 结果 , 学 习 了 如 何 利用 模 
型 把 原始 数据 转换 成 缩减 维度 后 的 表示 ， 并 人 研究 了 PCA 和 SVD 之 间 的 紧密 联系 。 


下 一 章 ， 我 们 将 深入 学 习 Spark 在 文本 处 理 和 分 析 方 面 的 技术 。 
































Spark 高 级 又 本 处 理 扫 术 











在 第 4 章 中 , 我 们 讨论 了 有 关 特 征 提 取 和 数据 处 理 的 多 个 问题 , 其 中 包括 从 文本 数据 中 提取 
特征 的 基础 知识 。 在 这 一 章 中 , 我们 将 介绍 MLlib 中 的 高 级 文本 处 理 技 术 , 这 些 技术 专门 针对 大 
规模 的 文本 处 理 。 

在 本 章 中 ， 我 们 将 : 

口 学 习 几 个 和 文本 数据 相关 的 数据 处 理 、 特 征 提取 和 建 模 流程 的 详细 例子 ; 

口 根据 文档 中 的 文字 比较 两 个 文档 的 相似 性 ; 

口 将 提取 的 文本 特征 作为 分 类 模型 的 训练 输入 ; 

口 讨论 近期 新 产生 的 自然 语言 处 理 的 词 向 量 建 模 模型 ， 演 示 如 何 使 用 Spark 的 Word2Vec 模 
型 来 根据 词义 比较 两 个 单词 的 相似 性 。 


下 面 会 探讨 如 何 使 用 Spark MLlib 以 及 Spark ML 做 文本 处 理 以 及 文档 聚 类 。 





























10.1 文本 数据 处 理 的 特别 之 处 


文本 数据 处 理 的 复杂 性 主要 源 于 两 个 原因 。 第 一 , 文本 和 语言 有 隐 含 的 结构 信息 , 使 用 原始 
的 文本 很 难 捕捉 到 ( 例如, 含义、 上 下 文 、 不 同 词性 的 词语 、 句 法 结构 和 不 同 的 语言 ， 这 些 是 表 
现 明显 的 几 个 方面 )。 因 此 ， 单 纯 的 特征 提取 方法 常常 没有 太 大 效果 。 


第 二 , 文本 数据 的 有 效 维度 一 般 都 非常 巨大 甚至 是 无 限 的。 试想 一 下 英语 中 的 单词 、 所 有 特 
殊 词 、 字 符 、 俗语 等 的 总 数 有 和 多少, 然后 加 上 其 他 语言 和 所 有 可 以 在 互联 网 上 找到 的 文本 。 因此， 
即使 在 较 小 的 数据 集 上 ， 文 本 数据 按照 的 维度 也 可 以 轻易 超过 数 千 万 甚至 数 亿 个 单词 。 例 如 ， 
Common Cawl 数据 集 就 是 从 几 十 亿 个 网 站 候 取 的 ， 包含 了 8400 亿 以 上 的 单词 。 


为 了 应 对 这 个 问题 , 我 们 需要 提取 更 多 的 结构 特征 , 并 需要 一 种 可 以 处 理 极 大 维度 文本 数据 
的 方法 。 
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10.2 ”从 数据 中 抽取 合适 的 特征 

自然 语言 处 理 ( NLP, natural language processing ) 领域 研究 文本 处 理 的 技术 , 包括 提取 特征 、 
建 模 和 机 器 学 习 。 在 这 一 章 中 , 我 们 着 重 讨论 Spark MLlib 和 Spark ML 中 包含 的 两 种 特征 提取 技 
术 : 词 频 - 逆 文本 频率 ( TF-IDF ) 的 词 加 权 表 示 和 特征 散 列 ( feature hashing )。 


通过 学 习 TF-IDF 的 例子 ， 还 可 以 了 解 用 于 提取 特征 的 文本 处 理 、 分 词 和 过 滤 技 术 ， 帮 助 我 
们 降低 输入 数据 的 维度 ， 并 提高 提取 的 特征 的 信息 含量 和 有 用 性 。 














10.2.1 词 加 权 表 示 


在 第 4 章 中 ,我们 学 习 了 词 袋 模型 ， 即 把 文本 特征 映射 到 简单 的 二 元 向 量 的 词 向 量 形式 。 实 践 
中 通常 会 用 到 的 另 一 种 形式 叫 作 词 频 - 逆 文 本 频率 ( TF-IDF,term frequency-inverse document frequency )。 

TF-IDF 给 一 段 文本 〈 叫 作文 档 ) 中 的 每 一 个 词 赋予 一 个 权 值 。 这 个 权 值 是 基于 单词 在 文本 
中 出 现 的 频率 ( 词 频 ，term frequency ) 计算 得 到 的 。 同 时 还 要 应 用 逆 文 本 频率 做 全 局 的 归 一 化 。 
逆 文本 频率 是 基于 单词 在 所 有 文档 (所 有 文档 的 集合 对 应 的 数据 集 通 常 称 作 语 料 集 ，corpus ) 中 
的 频率 计算 得 到 的 。TF-IDF 的 标准 定义 如 下 : 

TF ~ IDF(t,4d) = TF(t,4d)x IDF() 

这 里 , TF(t, 9) 是 单词 1 在 文档 4 中 的 频率 ( 出现 的 次 数 ), IDF(7) 是 语 料 集中 单词 1 的 逆 文 本 频率 ， 
定义 如 下 : 

















IDF(1) = log(™) 


这 里 是 文档 的 总 数 ，d 是 出 现 过 单词 1 的 文档 数量 。 


TF-IDF 公式 的 含义 是 : 相 比 于 在 一 个 文档 中 出 现 次 数 较 少 的 单词 ， 出 现 次 数 很 多 的 单词 应 
该 在 词 向 量 表示 中 得 到 更 高 的 权 值 。 而 IDF 归 一 化 起 到 了 减少 在 所 有 文档 中 总 是 出 现 的 单词 的 权 
值 的 作用 。 最 后 的 结果 就 是 , 稀有 的 或 者 重要 的 单词 被 给 予 了 更 高 的 权 值 , 而 更 加 常见 的 单词 (被 
认为 比较 不 重要 ) 则 在 考虑 权重 的 时 候 有 较 小 的 影响 。 
学 习 词 袋 模型 ( 或 者 词 向 量 空间 模型 ) 的 一 个 优秀 资源 是 《信息 检索 导论 》 
Christopher D. Manning、Prabhakar Raghavan 和 Hinrich Schiitze 著 。 
6 人 该 书 中 有 几 节 简 述 了 文本 处 理 技术 ， 包 括 分 词 、 移 除 停 用 词 、 词 根 技术 、 向 
量 空间 模型 ， 以 及 类 似 TF-IDF 这 样 的 权重 表示 。 
这 里 也 有 一 个 相关 的 概要 介绍 : https://en.wikipedia.org/wiki/Tf-idf。 















































Q@ 该 书 已 由 人 民 邮 电 出 版 社 出 版 。 一 一 编者 注 
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10.2.2 ”特征 散 列 
特征 散 列 ( feature hashing ) 是 一 种 处 理 高 维 数据 的 技术 , 并 经 常 被 应 用 在 文本 和 分 类 数据 集 


上 ， 这 些 数据 集 的 特 和 和 














E 可 以 取 很 多 不 同 的 值 ( 经 常 是 好 几 百 万 个 值 )。 前 儿童 中 ， 我 们 经 常 使 用 








之 一 ( 1-of-k) 编码 方法 处 理 包 括 文本 的 分 类 特征 。 这 种 方法 简单 有 效 , 但 是 对 于 非常 高 维 的 数 
据 却 不 易 使 用 。 


构造 和 使 用 之 一 特 和 
外 ,构建 这 个 
到 现在 为 止 ， 














合 在 一 起 来 创建 一 个 特征 值 到 
或 者 隐 式 地 被 Spark 处 理 ) 到 各 个 工作 节点 。 


但 是 ， 处 理 文本 时 经 常会 遇 到 上 千 万 甚至 更 多 维度 的 特征 ， 这 时 这 种 方法 就 会 很 慢 ， 并 且 














F 编 码 需 要 在 一 个 向 量 中 维护 每 一 个 可 能 的 特征 值 到 下 标的 映射 。 另 
了 映射 的 过 程 本 身 至 少 需要 额外 对 数据 集 进 行 一 次 遍历 ,这 在 并 行 场景 下 会 比较 麻烦 。 
我 们 已 经 使 用 了 一 种 简单 的 方法 来 收集 不 同 的 特征 值 , 并 把 这 个 集合 和 一 组 下 标 组 

















下 标的 映射 关系 。 这 个 映射 关系 被 广播 ( 显 式 地 写 在 我 们 的 代码 中 








Spark 的 主 节 点 〈 收 集 每 一 个 节点 的 计算 结果 ) 和 工作 节点 都 会 消耗 巨 量 的 内 存 (为 了 对 本 地 输入 


的 数据 切片 应 用 特 生 


特 生 






































FE 编码 ， 需 要 广播 映射 结果 到 每 一 个 工作 节点 ， 并 存储 在 内 存 中 ) 及 网 络 资源 。 
F 散 列 通 过 使 用 散 列 函数 对 特征 赋予 向 量 下 标 , 这 个 向 量 下 标 是 通过 对 特征 的 值 做 散 列 得 














到 的 (通常 是 整数 )。 例如， 对 分 类 特征 中 的 美国 这 个 位 置 特征 得 到 的 散 列 值 是 342。 我 们 将 使 












































用 散 列 值 作为 向 量 下 标 ， 对 应 的 值 是 1.0， 表 示 “ 美 国 ” 这 个 特征 出 现 了 。 使 用 的 散 列 函数 必须 
是 一 致 的 ( 就 是 说 ， 对 于 一 个 给 定 的 输入 ， 每 次 返回 相同 的 输出 )。 








这 种 编码 的 工作 方式 和 基于 映射 的 编码 一 样 ， 只 不 过 需要 预先 选择 特征 向 量 的 大 小 。 因 为 最 
常用 的 散 列 函数 返回 整个 整数 域内 的 任意 值 ， 所 以 我 们 将 使 用 模 ( modulo ) 操作 来 限制 下 标的 值 


到 一 个 特定 的 大 小 ， 通 常 远 远 小 于 整数 域 的 大 小 (根据 需要 取 几 万 直至 几 百 万 )。 




















特征 散 列 的 优势 在 于 不 再 需要 构建 映射 并 把 它 保存 在 内 存 中 。 特征 散 列 很 容易 实现 , 并 且 非 
常 快 ， 可 以 在 线 或 者 实时 生成 ， 因 此 不 需要 预先 扫描 一 遍 数 据 集 。 最 后 ， 因 为 我 们 选择 了 维度 远 
和 远 小 于 原始 数据 集 的 特征 向 量 
会 随 数 据 量 和 维度 的 增加 而 增加 。 


然而 ， 特 生 


口 





口 





因为 我 人 




















F 散 列 依然 有 两 
门 没有 创建 特 生 





， 限 制 了 模型 训练 和 预测 时 内 存 的 使 用 规模 ,所 以 内 存 使 用 量 并 不 


个 重要 的 缺陷 。 
F 到 下 标的 映射 ， 也 就 不 能 做 逆向 转换 把 下 标 转换 为 特征 。 例 如 ， 








如 何 判断 哪些 特征 在 我 们 的 模型 中 是 信息 量 最 大 的 将 会 变 得 比较 困难 。 





因为 我 人 

















门限 制 了 特征 向 量 的 大 小 ， 所 以 当 两 个 不 同 的 特征 被 散 列 到 同一 个 下 标 时 会 产生 





散 列 冲突 。 令 人 惊讶 的 是 ， 只 要 我 们 选择 了 一 个 相对 合理 的 特征 向 量 维度 ， 这 种 冲突 貌 
似 对 于 模型 的 效果 没有 太 大 的 影响 。 散 列 向 量 越 大 ， 则 冲突 越 小 ,但 增益 ( gain ) 仍 会 很 
大 。 具 体 参 见 http:/www.cs.jhu.edu/~mdredze/publications/mobile nlp_feature_mixing.pdf。 
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在 下 面 的 网 址 中 可 以 找到 关于 散 列 技术 的 更 多 信息 : http://en.wikipedia.org/ 
wiki/Hash function。 
这 里 有 一 篇 重要 的 使 用 散 列 做 特征 抽取 和 机 器 学 习 的 论文 : 
人 WEINBERGER K, DASGUPTA A, LANGFORDJ, etal.Feature hashing for 
large scale multitask learning [C]/ Proceedings of the 26th International Conference on 


Machine Learning, Montreal, Canada, 2009. 


10.2.3 从 20 Newsgroups 数据 集中 提取 TF-IDF 特征 


为 了 说 明 本 章 的 概念 ， 我 们 将 使 用 一 个 非常 有 名 的 数据 集 ， 叫 作 20 Newsgroups。 该 数据 
一 般 用 来 做 文本 分 类 。 它 是 一 个 由 20 个 不 同 主题 的 新 闻 组 消息 组 成 的 集合 ， 有 很 多 种 不 同 的 数 
据 格 式 。 对 于 我 们 的 任务 来 说 ， 可 以 使 用 按 日 期 组 织 的 数据 集 。 在 下 面 的 网 站 下 载 这 个 数据 集 : 
http:/qwone.com/~jason/20Newsgroups。 


这 个 数据 集 把 可 用 数据 拆 分 成 训练 集 和 测试 集 两 部 分 , 分 别 包 含 原 数 据 集 的 60% 和 40%。 测 
试 集中 的 新 闻 组 消息 发 生 的 时 间 在 训练 集 之 后 。 这 个 数据 集 也 排除 了 用 来 分 辨 所 属 真实 新 闻 组 的 
消息 头 信息 。 因 此 ， 这 是 一 个 测试 分 类 模型 在 现实 中 表现 的 很 合适 的 数据 集 。 








漆 




















想 了 解 该 数据 集 的 更 多 信息 ,请 参考 UCI 机 器 学 习 档 案 库 : http://kdd.ics.uci. 
edu/databases/20newsgroups/20newsgroups.data.html。 
下 面 我 们 开始 ， 首 先 通 过 以 下 命令 下 载 数 据 并 解压 文件 : 
> tar xfvz 20news-bydate.tar.gz 


这 创建 了 两 个 文件 夹 : 一 个 是 20news-bydate-train， 另 一 个 是 20news-bydate-test。 看 一 下 训 
练 集 目录 下 的 子 文件 夹 结构 : 


> cd 20news-bydate-train/ 





> 1s 

可 以 看 到 它 包含 很 多 子 文件 来， 每 个 新 闻 组 一 个 文件 夹 : 

alt .atheism Comp .windows . 工 rec.sport.hockey 
Soc.religion.christian 

comp.graphics misc.forsale sci.crypt 
talk.politics.guns 

comp .os .ms-windows .misc rec.autos sci.electronics 
talk.politics.mideast 

comp.sys.ibm.pc.hardware rec.motorcycles sci.med 
talk.politics.misc 

Comp.sys.mac.hardware rec.sport.baseball sci.space 


talk.religion.misc 
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每 一 个 新 闻 组 文件 夹 内 都 有 很 多 文件 ， 每 个 文件 包含 一 条 消息 : 


> ls rec.sport.hockey 
52550 52580 52610 52640 53468 53550 53580 53610 53640 53670 53700 
53731 53761 53791 








我 们 来 看 其 中 一 条 消息 的 部 分 内 容 以 了 解 格式 : 


> head -20 rec.sport.hockey/52550 

From: dchhabra@stpl.ists.ca (Deepak Chhabra) 

Subject: Superstars and attendance (was Teemu Selanne, was +/- 
leaders) 

Nntp-Posting-Host: stpl.ists.ca 

Organization: Solar Terresterial Physics Laboratory, ISTS 
Distribution: na 

Lines: 115 


Dean J. Falcione (posting from jrmst+8@pitt.edu) writes: 
[I wrote:] 


>> When the Pens got Mario, granted there was big publicity, etc, etc, 

>> and interest was immediately generated. Gretzky did the same thing for LA. 
>> However, imnsho, neither team would have seen a marked improvement in 

>> attendance if the team record did not improve. In the year before Lemieux 
>> came, Pittsburgh finished with 38 points. Following his arrival, the Pens 
>> finished with 53, 76, 72, 81, 87, 72, 88, and 87 points, with a couple of 


和 人 人 


>> Stanley Cups thrown in. 























我 们 看 到 每 条 消息 都 包含 一 个 消息 头 ， 其 中 有 发 送 者 、 主 题 和 其 他 元 数据 ,然后 是 消息 的 原 
始 内 容 。 


1. 查看 20 Newsgroups 数据 


下 面 会 用 一 个 Spark 程序 来 载 人 并 分 析 该 数据 集 : 


object TFIDFExtraction { 
def main(args: Array[String]) { 


} 


从 数据 的 目录 结构 结构 看 ,数据 都 是 以 单独 的 文件 形式 保存 的 ， 每 个 消息 对 应 一 个 文件 。 这 
和 之 前 类 似 。 因 此 ,同样 用 Spark 的 wholeTextFiles 方法 来 把 每 个 文件 的 内 容 读 取 到 RDD 的 
一 个 记录 中 。 


以 下 代码 中 的 PATH 指向 的 路 径 是 解压 20news-bydate 压缩 包 后 的 文件 夹 : 
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val sc = new SparkContext ("local[2]", "First Spark App") 
val path = "/PATH/20news-bydate-train/*" 

val rdd = sc.wholeTextFiles (path) 

// 打印 记录 数 


println(text.count) 


上 述 代 码 会 输出 Spark 发 现 的 文件 总 数目 : 


FileInputFormat: Total input paths to process 
11314 


命令 运行 结束 后 ， 将 会 看 到 总 共 的 记录 数目 ， 这 个 数目 应 该 和 之 前 的 “Total input paths to 
process” 屏 幕 输出 一 致 : 


11314 
下 面 打印 输出 刚 导 入 数据 的 RDD 的 第 一 个 元 素 : 


16/12/30 20:42:02 INFO DAGScheduler: Job 1 finished: first at 
TFIDFExtraction.scala:27, took 0.067414 s 
(file:/home/ubuntu/work/ml-resources/sparkml/ 

Chapter 10/data/20news- bydate-train/alt .atheism/53186,From: 
ednclark@kraken.itc.gu.edu.au (Jeffrey Clark) 

Subject: Re: some thoughts. 

Keywords: Dan Bissell 

Nntp-Posting-Host: kraken.itc.gu.edu.au 

Organization: ITC, Griffith University, Brisbane, Australia 
Lines: 70 








然后 我 们 看 一 下 得 到 的 新 闻 组 主题 : 





val newsgroups = rdd.map { 

case (file, text) => file.split("/") .takeRight (2) .head 
} 
println (newsgroups.first()) 
val countByGroup = newsgroups.mapl( 

n => (n, 1)) .reduceByKey(_ + _).collect.sortBy( 
println (countByGroup) 


将 会 产生 下 面 的 输出 : 


_2) .mkString(" An") 





(ec .Sport .hockey,， 600) 
(soc.religion.christian,599) 
(rec.motorcycles,598) 
(rec.sport .baseball,597) 
(sci.crypt,595) 
(rec.autos,594) 
(sci.med,594) 

(comp .windows .x,593) 
(sci.space,593) 
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(sci.electronics,591) 

(comp .os .ms-windows .misc,591) 
(comp.sys.ibm.pc.hardware,590) 
(misc.forsale,585) 
(comp.graphics,584) 
(comp.sys.mac.hardware,578) 
(talk.politics.mideast,564) 
(talk.politics.guns,546) 

(alt .atheism,480) 
(talk.politics.misc,465) 
(talk.religion.misc,377) 


各 个 主题 中 的 消息 数量 基本 相等 。 

2. 基本 分 词 处 理 

我 们 文本 处 理 流程 的 第 一 步 就 是 把 每 个 文档 中 的 原始 文本 内 容 切 分 为 多 个 词 ( 也 叫 作词 项 ， 
token ) 组 成 的 集合 。 这 个 过 程 叫 作 分 词 (tokenization ) 。 我 们 先 来 实现 最 简单 的 空白 分 词 ， 并 把 
每 个 文档 的 所 有 单词 变 为 小 写 : 


val text = rdd.map { case (file, text) => text } 
val whiteSpaceSplit = text.flatMap(t => t.split(" ").map(_.toLowerCase)) 
println(whiteSpaceSplit.distinct.count) 


因为 需要 进行 探索 性 分 析 ， 所 以 上 面 代码 中 没有 使 用 map， 而 是 使 用 了 
人 flatMap 函数 。 在 本 章 后 面 ， 我 们 将 对 每 个 文档 应 用 相同 的 分 词 方案 ， 到 时 候 
将 使 用 map 函数 。 


运行 完 之 前 的 代码 片段 ， 你 将 会 得 到 分 词 之 后 不 同 单词 的 数量 : 


















































402978 
正如 你 所 见 ， 即 使 对 于 相对 较 小 的 语 料 集 ， 不 同 单词 的 个 数 ( 也 就 是 我 们 特征 向 量 的 维度 ) 
也 可 能 会 非常 高 。 


下 面 随机 抽 篇 文档 看 下 ， 这 会 用 到 RDD 的 sample 限 数 : 





println(whiteSpaceSplit.sample(true, 0.3, 42) .take(100) .mkString(",") 


注意 我 们 传 给 sample 函数 的 第 三 个 参数 ， 一 个 随机 种 子 。 我 们 设置 它 为 
全 42， 这 样 就 会 在 每 次 调用 sample 后 得 到 相同 的 结果 ， 你 们 的 结果 也 应 该 和 书 
中 的 相同 。 


此 时 会 显示 下 面 的 结 


atheist,resources 
summary:,addresses,,to,atheism 

keywords: ,music,,thu,,11:57:19,11:57:19,gmt 
distribution:,cambridge.,290 
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archive-name:,atheism/resources 
alt-atheism-archive-name:ydecembervvrrrrrrrrrrrrrrrrrrraddresses addresses， vvvvrrr 
religion,to:,to:,,p.0.,53701. 

telephone:,sell,the,,fish,on,their,cars, ,with,and,written 
inside.,3d,plastic,plastic,,evolution,evolution,7119,,,,,san,san,san, 
mailing,net,who,to,atheist,press 


aap,various,bible,,and,on.,,,one,book,is: 
"the,w.p.,american,pp.,,1986.,bible,contains,ball,,based,based, james,of 
3. 改进 分 词 效 果 


之 前 简单 的 分 词 产 生 了 很 多 单词 ， 而 且 许多 不 是 单词 的 字符 ( 比如 标点 符号 ) 没有 过 滤 指 。 
多 数 分 词 方案 都 会 把 这 些 字符 移 除 。 我们 可 以 使 用 正则 表达 式 模式 切 分 原始 文档 来 移 除 这 些 非 间 
词 字符 : 








val nonWordSplit = text.flatMap(t => 
t.split("""\W+""") .map(_.toLowerCase)) 
println(nonWordSplit.distinct.count) 


这 将 极 大 减少 不 同 单词 的 数量 : 
130126 

观察 一 下 前 儿 个 单词 ， 会 发 现 我 们 已 经 去 除了 文本 中 大 部 分 没有 用 的 字符 : 
println(nonWordSplit.distinct.sample(true, 0.3, 42) .take(100) .mkString(",")) 
输出 结果 如 下 : 
jejones,ml5,wlw3s1,k29p,nothin,42b,beleive,robin,believiing,749, 


steaminess,tohc4,fzbvliu,ao, 
instantaneous,nonmeasurable,3465,tiems,tiems,tiems,eur,3050,pgvad4d, 


eal 








warms,ndallen,g45,herod, 6w8rg,mqh0, suspects, 
floor,flqilr,io21087,phoniest,funded,ncmh,c4uzus 


尽管 我 们 使 用 非 单词 正则 模式 来 切 分 文本 的 效果 不 错 , 但 仍然 剩 下 很 多 数字 和 包含 数字 的 单 
词 。 在 有 些 情况 下 ,数字 会 成 为 文档 中 的 重要 内 容 。 但 对 于 我 们 来 说 ,下 一 步 就 是 过 滤 掉 数字 和 
包含 数字 的 单词 。 








使 用 另 一 个 正则 表达 式 模式 可 以 过 滤 掉 和 val regex = “"""[^0-9]*""".r 这 个 模式 不 
匹配 的 单词 : 
val regex = """[^0-9]*""".r 


val filterNumbers = nonWordSplit.filter(token => 
regex.pattern.matcher (token) .matches) 
println(filterNumbers.distinct.count) 
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这 再 次 减 小 了 单词 集 的 大 小 : 

84912 

让 我 们 再 随机 来 看 男 一 个 过 滤 完 单词 后 的 例子 : 
println(filterNumbers.distinct.sample(true, 0.3, 50) .take(100) .mkString(",") 
其 输出 如 下 : 

jejones,silikian,reunion,schwabam,nothin,singen,husky,tenex, 
eventuality,beleive,goofed,robin,upsets,aces,nondiscriminatory, 


underscored,bx]l,believiing,believiing,believiing,historians, 


scramblers,alchoholic,shutdown,almanac ,bruncati,karmann,hfd, 
makewindow,perptration,mtearle 


可 以 看 到 , 我 们 移 除了 所 有 的 数字 字符 。 尽管 还 有 一 些 奇怪 的 单词 剩 下 , 但 已 经 可 以 接受 了 。 
4. 移 除 停 用 词 


停 用 词 是 指 在 一 个 语 料 集 ( 和 大 多 数 语 料 集 ) 的 几乎 所 有 文档 中 出 现 很 多 次 的 常用 词 。 常见 
的 英语 停 用 词 包括 and、but、the、of 等 。 提 取 文 本 特征 的 标准 做 法 是 从 抽取 的 词 中 排除 停 用 词 。 

当 使 用 TF-IDF 加 权时 ， 加 权 模 式 已 经 做 了 这 一 点 。 停 用 词 的 IDF 分 数 很 低 ， 往 往 TF-IDF 
权 值 也 很 低 ， 因 此 是 不 重要 的 词 。 有 些 时 候 ， 对 于 信息 检索 和 搜索 任务 ， 停 用 词 又 需要 被 包含 。 
但 是 , 最 好 还 是 在 提取 特征 时 移 除 停 用 词 ， 因 为 这 可 以 降低 最 后 特征 向 量 的 维度 和 训练 数据 的 
大 小 。 


来 看 看 所 有 文档 中 高 频 的 词语 ， 看 看 还 有 没有 需要 去 除 的 停 用 词 





























val tokenCounts = filterNumbers.map(t => (t, 1)).reduceByKey(_ + _) 
val oreringDesc = Ordering.by[ (String, Int), Int](_._2) 
println(tokenCounts.top(20) (oreringDesc) .mkString("\n")) 


这 段 代 码 中 ， 我 们 用 过 滤 完 数字 字符 之 后 的 单词 生成 一 个 每 个 单词 在 文档 中 出 现 频率 的 集 
合 。 现 在 可 以 使 用 Spark 的 top 函数 来 得 到 前 20 个 出 现 次 数 最 多 的 单词 。 注 意 ， 需 要 给 top 也 
数 提供 一 个 排序 方法 ， 告 诉 Spark 如 何 给 RDD 中 的 元 素 排序 。 在 这 种 情况 下 ， 我 们 需要 按照 次 
数 排序 ， 因 此 设置 按照 键 值 对 的 第 二 个 元 素 排 序 。 


运行 上 面 的 代码 ， 将 得 到 如 下 出 现 次 数 最 多 的 20 个 单词 : 


(the,146532) 
(to,75064) 
(of,69034) 
(a,64195) 
(ax, 62406) 
(and,57957) 
(i,53036) 
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(in,49402) 
(is,43480) 
(that,39264) 
(it,33638) 
(for,28600) 
(you, 26682) 
(from,22670) 
(s,22337) 
(edu, 21321) 
(on,20493) 
(this,20121) 
(be,19285) 
(t,18728) 


如 我 们 所 料 , 很 多 常用 词 可 以 被 标注 为 停 用 词 。 把 这 些 词 中 的 某 些 词 和 其 他 常用 词 集合 成 一 
个 停 用 词 集 ， 过 滤 掉 这 些 词 之 后 就 可 以 看 到 剩 下 的 单词 ; 


val stopwords = Set( 























"Ehev va tam Of VOR, LN Or Ny Ot Ot 
It. 王 克 本 加 二 人 下 下 在 

they “Varese., "thiSs", Vandysy, Jit Nave, vtromY, ‘at, "my", 
"Dens. “Ehat™,. von 


) 
val tokenCountsFilteredStopwords = tokenCounts.filter { case 

(Kk, Vv) => !stopwords.contains (k) } 
println(tokenCountsFilteredStopwords.top(20) (oreringDesc) .mkString 
EN 


输出 如 下 : 


(ax, 62406) 
(i,53036) 

(you, 26682) 
(s,22337) 

(edu, 21321) 
(t,18728) 

(m, 12756) 
(subject,12264) 
(com,12133) 
(lines,11835) 
(can,11355) 
(organization,11233) 
(re,10534) 
(what, 9861) 
(there,9689) 
(x, 9332) 
(all,9310) 
(will,9279) 
(we, 9227) 
(one,9008) 


你 可 能 注意 到 了 , 输出 里 仍然 有 一 些 常用 词 。 事实 上 , 我 们 应 该 有 一 个 大 得 多 的 停 用 词 集合 
但 这 里 我 们 将 使 用 小 的 停 用 词 集 《部 分 原因 是 为 了 之 后 展示 TFIDF 加 权 对 于 常用 词 的 影响 ) 








遇 
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单字 


如 下 资源 提供 了 一 份 英语 常见 停 用 词 列 表 : http:/xpo6.conylist-of-english-stop-words/。 


下 一 步 , 我 们 将 删除 那些 仅仅 含有 一 个 字符 的 单词 。 这 和 我 们 移 除 停 用 词 的 原因 类 似 。 这 些 
符 单词 不 太 可 能 包含 太 多 信息 。 因 此 可 以 删除 它们 来 降低 特征 维度 和 模型 大 小 : 

















val tokenCountsFilteredSize = tokenCountsFilteredStopwords 
.filter{ case (k, v) => k.size >= 2 } 
printlin(tokenCountsFilteredSize 
.top(20) (oreringDesc) .mkString("\n")) 


再 来 检查 一 下 过 滤 之 后 剩 下 的 单 词 : 


(ax, 62406) 
(you, 26682) 
(edu, 21321) 
(subject,12264) 
(com,12133) 
(lines,11835) 
(can,11355) 
(organization,11233) 
(re,10534) 
(what,9861) 
(there,9689) 
(all,9310) 
(will,9279) 
(we, 9227) 
(one,9008) 
(would,8905) 
(do, 8674) 
(he,8441) 
(about, 8336) 
(writes,7844) 


除了 那些 尚未 删 掉 的 经 常 出 现 的 词 ， 也 开始 看 到 一 些 包 含 更 多 潜在 信息 量 的 词 。 
5. 基于 频率 去 除 单词 
在 分 词 的 时 候 , 另 一 种 比较 常用 的 去 除 单词 的 方法 是 去 掉 在 整个 语 料 集中 出 现 频率 很 低 的 单 



































词 。 例 如 ,看 下 语 料 集中 出 现 频率 最 低 的 单词 ( 注意 这 里 我 们 使 用 不 同 的 排序 方式 , 返回 升序 排 


列 的 

















结果 ): 
val oreringAsc = Ordering.by[ (String, Int), Int](-_._2) 
println(tokenCountsFilteredSize.top(20) (oreringAsc) .mkString("\n")) 


结果 如 下 : 


(lennips,1) 
(bluffing,1) 
(preload,1) 
(altina,1) 

(dan_ jacobson,1) 
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(vno,1) 

(actu,1) 
(donnalyn,1) 
(ydag, 1) 
(mirosoft,1) 
(xiconfiywindow,1) 
(harger,1) 
(feh,1) 
(bankruptcies,1) 
(uncompression,1) 
(gd_nibby,1) 
(bunuel,1) 
(odf,1) 

(swith,1) 
(lantastic,1) 


正如 我 们 看 到 的 , 很 多 词 在 整个 语 料 集中 只 出 现 一 次 。 对 于 使 用 提取 特征 来 完成 的 任务 ， 比 
如 文本 相似 度 比较 或 者 生成 机 器 学 习 模型 ,只 出 现 一 次 的 单词 是 没有 价值 的 ， 因为 对 于 这 些 单词 








我 们 没有 足够 的 训练 数据 。 可 以 应 用 男 一 个 过 滤 函 数 来 排除 这 些 很 少 出 现 的 单词 : 


rareTokens = tokenCounts.filter { case (k, v) =>V< 2 } 

.map { case (k, Vv) => k }.collect.toSet 
val tokenCountsFilteredAll = tokenCountsFilteredSize 

.filter { case (k, Vv) => !rareTokens.contains (k) } 
println(tokenCountsFilteredAll.top(20) (oreringAsc) .mkString("\n")) 


剩 下 的 是 至 少 出 现 了 两 次 的 单词 : 








(sina,2) 
(akachhy, 2) 
(mvd, 2) 
(hizbolah,2) 
(wendel_ clark,2) 
(sarkis,2) 
(purposeful,2) 
(feagans,2) 
(wout, 2) 
(uneven, 2) 
(senna,2) 
(multimeters,2) 
(bushy, 2) 
(subdivided,2) 
(coretest,2) 
(oww, 2) 
(historicity,2) 
(mmg, 2) 
(margitan,2) 
(defiance,2) 


现在 ,计算 不 同 的 单词 有 和 多少: 


println(tokenCountsFilteredAll .count) 
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你 会 看 到 下 面 的 输出 : 

51801 

通过 在 分 词 流 程 中 应 用 所 有 这 些 过 滤 步 又 ， 特 征 的 维度 从 402 978 降 到 了 51 801。 
现在 把 过 滤 逻 辑 组 合 到 一 个 函数 中 ， 并 应 用 到 RDD 中 的 每 个 文档 : 








def tokenize(line: String): Sed[String]l = { 
line.split("""\W+""") 

.map (_.toLowerCase) 
.filter(token => regex.pattern.matcher (token) .matches) 
.filterNot (token => stopwords.contains (token)) 
.filterNot (token => rareTokens.contains (token)) 
.filter(token => token.size >= 2) 
.toSeq 

} 


通过 下 面 的 代码 可 以 检查 这 个 函数 是 否 给 出 相同 的 输出 : 
printlin(text.flatMap(doc => tokenize(doc)).distinct.count) 
结果 会 输出 51 801， 这 和 我 们 一 步 一 步 执行 整个 流程 得 到 的 结果 完全 一 致 。 


我 们 可 以 对 RDD 中 的 每 个 文档 按照 下 面 的 方式 分 词 ， 





val tokens = text.map(doc => tokenize (doc)) 
printlin(tokens.first.take(20)) 


你 将 会 看 到 类 似 如 下 的 输出 ， 这 里 展示 了 第 一 篇 文档 第 一 部 分 的 分 词 结果 : 


WrappedArray (mathew, mathew, mantis, co, uk, subject, alt, atheism, 
faq, atheist, resources, summary, books, addresses, music, anything, 
related, atheism, keywords, faq) 


6. 关于 提取 词 干 


提取 词 干 ( stemming ) 在 文本 处 理 和 分 词 中 比较 常用 。 这 是 一 种 把 整个 单词 转换 为 一 个 基本 
形式 (base form ) ， 形 成 词根 ( word stem ) 的 方法 。 例 如 ， 复数 形式 可 以 转换 为 单数 ( dogs 变 
成 dog ), 像 walking 和 walker 这 样 的 形式 可 以 转换 为 walk。 提 取 词 干 很 复杂 ， 一 般 通 过 标准 的 
NLP 方法 或 者 搜索 引擎 软件 (例如 NLTK、OpenNLP 和 Lucene ) 实现 。 在 这 里 的 例子 中 ， 我 们 
将 不 考虑 提取 词 干 。 






































完整 的 提取 词 干 的 方法 超出 了 本 书 讨论 的 范围 。 可 以 在 下 面 的 网 址 中 找到 更 
多 的 信息 : https://en.wikipedia.org/wiki/Stemming。 


7. 特征 散 列 
下 面 先 解释 下 什么 是 特征 散 列 ， 以 便 更 容易 理解 下 一 节 的 TF-IDF 模型 。 
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寺 征 散 列 将 一 个 字符 串 或 单词 转换 为 一 个 固定 长 度 的 向 量 ， 以 便于 处 理 。 








Spark 目前 使 用 Austin Appleby 的 MurmurHash3 算法 (MurmurHash3 x86_32 ) 来 将 文本 散 列 


人 处理 为 数字 。 


其 实现 如 下 : 


private[spark] def murmur3Hash (term: Any): Int = { 


term match { 
case null => seed 
case b 
case b: Byte => hashInt (pb, seed) 
case s: Short => hashIint(s, seed) 
case i: Int => hashInt (i, seed) 
f 
a 
S 





case 1: Long => hashLong(l1, seed) 
case 
case 
case s: String => 
val utf8 = UTF8String.fromSstring(s) 
hashUnsafeBytesBlock (utf8.getMemoryBlock(), 
case => throw new SparkException( 


"HashingTF with murmur3 algorithm does not " 


: Boolean => hashInt (if (b) 1 else 0, seed) 


: Float => hashInt (java.lang.Float.floatToIntBits(f), seed) 
: Double => hashLong (java.lang.Double.doubleToLongBits(d), seed) 


seed) 


机 


s"support type S${term.getClass.getCanonicalName} of input data.") 


} 
} 


请 注意 ，hashInt 、hashLong 等 函数 调用 自 Util.scala。 


8. 训练 TF-IDF 模型 











现在 我 们 使 用 MLlib 把 每 篇 处 理 成 词 项 形式 的 文档 转换 为 向 量 形式 。 第 一 步 是 使 用 











HashingTF 实现 ， 它 使 用 特征 散 列 把 输入 文本 的 每 个 词 项 
计算 并 使 用 一 个 全 局 的 IDF 向 量 把 词 频 向 量 转换 为 TF-IDF 


每 个 词 项 的 下 标 是 这 个 词 项 的 散 列 值 (依次 映射 到 特 和 
的 TF-IDF 权重 〈( 即 词 项 的 频率 乘 以 逆 文 本 频率 )。 


首先 ， 引 入 我 们 需要 的 类 ， 并 创建 一 个 HashingTF 实 








映射 为 一 个 词 频 向 量 的 下 标 。 之 后 ， 


问 量 。 


F 向 量 的 某 个 维度 )。 词 项 的 值 是 本 身 


例 ， 传 人 维度 参数 aim。 默 认 特 征 维 


度 是 20” (或 者 接近 一 百 万 )， 因 此 我 们 选择 2* (或 者 约 26 000 )， 因 为 使 用 50 000 个 单词 应 该 
不 会 产生 很 多 的 散 列 冲突 ， 而 较 少 的 维度 占用 内 存 更 少 并 且 展 示 起 来 更 方便 : 





import org.apache.spark.mllib.linalg.{ SparseVector => SV } 


import org.apache.spark.mllipb.feature.HashingTF 
import org.apache.spark.mllib.feature.IDF 

val dim = math.pow(2, 18) .toInt 

val hashingTF = new HashingTF (dim) 


val tf = hashingTF.transform(tokens) 
tf.cache 
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注意 ， 我 们 使 用 别名 SV 引入 了 MLlib 的 SparseVector 包 。 这 是 因为 之 
6 后 我 们 将 使 用 Breeze 的 1inalg 模块 ， 其 中 也 引用 了 SparseVector 包 ， 这 样 
可 以 避免 命名 空间 的 冲突 。 
HashingTF 的 transform 函数 把 每 个 输入 文档 〈 即 词 项 的 序列 ) 映射 到 一 个 MLlib 的 
Vector 对 象 。 我 们 将 调用 cache 来 把 数据 保持 在 内 存 中 以 加 速 之 后 的 操作 。 


让 我 们 观察 一 下 转换 后 数据 集 的 第 一 个 元 素 : 








HashingTF 的 transform 函数 返回 一 个 RDD[Vector] 的 引用 ， 因 此 我 们 
可 以 把 返回 的 结果 转换 成 MLlib 的 SparseVector 形式 。 
transform 方法 可 以 接收 Tterable 参数 (例如 一 个 以 Seq[String] 形 式 
出 现 的 文档 ) 对 每 个 文档 进行 处 理 ， 最 后 返回 一 个 单独 的 结果 向 量 。 
val v = tf.first.asInstanceOf [SV] 
printlin(v.size) 
values.size) 


values.take(10) .toSeqg) 
indices.take(10) .toSeq) 


printlinl(v 


(Vs 
(Vv. 
printlnl(v. 
printlnl(v. 


这 将 会 显示 下 面 的 输出 : 


262144 

706 

WrappedArray(1.0, 1.0, 1.0, 1.0, 2.0, 1.0, 1.0, 2.0, 1.0, 1.0) 
WrappedArray(313, 713, 871, 1202, 1203, 1209, 1795, 1862, 3115, 3166) 


我 们 可 以 看 到 ， 每 一 个 词 频 的 稀 玻 向 量 的 维度 是 262 144 (正如 我 们 期 望 的 2”)。 然 而 向 量 
中 的 非 零 项 只 有 706 个。 输出 的 最 后 两 行 展 示 了 向 量 中 前 几 列 的 下 标 和 词 频 值 。 


现在 通过 创建 新 的 IDF 实例 并 调用 RDD 中 的 fit 方法 , 利用 词 频 向 量 作为 输入 来 对 语 料 集中 
的 每 个 单词 计算 逆 文 本 频率 。 之 后 使 用 IDF 的 transfornm 方法 将 词 频 向 量 转换 为 TF-IDF 向 量 : 























val idf = new IDF().fit(tf) 

val tfidf = idf.transform(tf) 

val v2 = tfidf.first.asInstanceOf [SV] 
println(v2.values.size) 
println(v2.values.take(10) .toSeq) 
println(v2.indices.take(10) .toSed) 


检查 一 下 TF-IDF 向 量 的 第 一 个 元 素 ， 会 看 到 如 下 的 输出: 





706 

WrappedArray(2.3869085659322193, 4.670445463955571, 
6.561295835827856, 4.597686109673142, ... 

WrappedArray(313, 713, 871, 1202, 1203, 1209, 1795, 1862, 3115, 3166) 


可 以 看 到 非 零 项 的 数量 没有 改变 ( 现在 是 706 )， 词 向 量 的 下 标 也 没 变 。 改 变 的 是 各 词 对 应 
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的 值 。 之 前 这 些 值 表示 每 个 单词 在 文档 中 出 现 的 频率 ， 而 现在 新 的 值 表示 IDF 的 加 权 频 率 。 
如 下 两 行 代码 会 引入 IDF 加 权 : 


val idf = new IDF().fit(tf) 
val tfidf = idf.transform(tf) 


9. 分 析 TF-IDF 权重 


接 下 来 ， 我 们 观察 几 个 单词 的 TF-IDF 权 值 ， 分 析 一 个 单词 常用 或 者 极 少 使 用 的 情况 会 对 
TF-IDF 值 产生 什么 样 的 影响 。 


首先 计算 整个 语 料 集 的 最 小 和 最 大 TF-IDF 权 值 : 














val minMaxVals = tfidf.map { Vv => 
val sv = Vv.asInstanceOf [SV] 
(sv.values.min, sv.values.max) 
} 
val globalMinMax = minMaxVals.reduce { case ((minl, maxl), 
(min2, max2)) => 
(math.min (minl, min2), math.max (maxl, max2)) 


} 
println(globalMinMax) 


正如 我 们 看 到 的 ， 最 小 的 TF-IDF 值 是 0， 最 大 的 TF-IDF 值 是 一 个 非常 大 的 数 : 




















(0.0,66155.39470409753) 

现在 我 们 来 观察 不 同 单词 的 TF-IDF 权 值 。 在 之 前 一 节 关 于 停 用 词 的 讨论 中 ， 我 们 过 滤 掉 了 
很 多 高 频 常 用 词 。 记 得 我 们 并 没有 移 除 所 有 这 样 潜在 的 停 用 词 ， 而 是 在 语 料 集中 保留 了 一 些 ， 以 
便 可 以 看 到 使 用 TF-IDF 加 权 会 有 什么 影响 。 

对 之 前 计算 得 到 的 频率 最 高 的 几 个 词 的 TF-IDF 表示 进行 计算 ,可 以 看 到 TF-IDF 加 权 会 对 常 
用 词 赋予 较 低 的 权 值 ， 比 如 you、do 和 we: 




















val common = sc.parallelize(Seq(Seq("you", "do", "we"))) 
val tfCommon = hashingTF.transform(common) 

val tfidfCommon = idf.transform(tfCommon) 

val commonVector = tfidfCommon.first.asInstanceOf [SV] 
println(commonVector.values.toSeq) 


如 果 形 成 了 这 个 文档 的 TF-IDF 向 量 表示 ,会 看 到 下 面 赋予 每 个 单词 的 值 。 注 意 我 们 使 用 了 
特征 散 列 ， 所 以 将 不 能 确定 这 些 值 分 别 表示 的 是 哪个 向 量 。 但 是 , 这 些 值 说 明 赋 给 这 些 词 的 权重 
相对 较 低 : 


WrappedArray(0.9965359935704624, 1.3348773448236835, 
0.5457486182039175) 
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现在 ， 让 我 们 对 几 个 不 常 出 现 的 单词 应 用 相同 的 转换 。 直 觉 上 ,我们 认为 这 些 词 和 某 些 话题 
更 相关 : 

val uncommon = sc.parallelize(Seq(Seq("telescope", "legislation","investment"))) 

val tfUncommon = hashingTF.transform(uncommon) 

val tfidfUncommon = idf.transform(tfUncommon) 


val uncommonVector = tfidfUncommon.first.asInstanceOf [SV] 
printlin(uncommonVector.values.toSeq) 


从 下 面 的 结果 中 可 以 看 出 ， 这 些 词 的 TF-IDF 值 确实 远 远 高 于 那些 常用 词 : 


WrappedArray(5.3265513728351666, 5.308532867332488, 
5.483736956357579) 


上 述 代 码 位 于 : 
人 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 10/scala-2.0.x/ 
src/main/scala/TFIDFExtraction.scala。 














10.3 ”使 用 TF-IDF 模型 


虽然 我 们 总 说 训练 TF-IDF 模型 ， 但 事实 上 我 们 做 的 是 特征 提取 或 者 转化 ， 而 不 是 训练 机 器 
学 习 模 型 。TF-IDF 加 权 经 常用 来 作为 降 维 、 分 类 和 回归 等 模型 的 预 处 理 步骤 。 


为 了 展示 TF-IDF 的 潜在 用 途 , 我 们 将 学 习 两 个 实例 。 第 一 个 实例 使 用 TF-IDF 向 量 来 计算 文 
本 相似 度 ， 而 第 二 个 使 用 TF-IDF 向 量 作为 输入 特征 来 训练 一 个 多 标签 分 类 模型 。 











10.3.1 20 Newsgroups 数据 集 的 文本 相似 度 和 TF-IDF 特征 

第 5 章 提 到 过 ,可 以 通过 计算 两 个 向 量 的 距离 比较 两 个 向 量 的 相似 度 。 两 个 向 量 离 得 越 近 ( 即 
距离 指标 越 低 ) 就 越 相似 。 其 中 有 一 个 用 来 计算 电影 相似 度 的 度量 是 余弦 相似 度 。 

正如 我 们 在 比较 电影 时 所 做 的 ， 也 可 以 计算 两 个 文档 的 相似 度 。 我 们 已 经 通过 TF-IDF 把 文 
本 转换 成 向 量 表示 ， 因 此 可 以 使 用 和 比较 电影 向 量 相同 的 技术 来 计算 两 个 文本 的 相似 度 。 
直觉 上 来 说 , 共有 单词 越 多 的 两 个 文档 ,它们 的 相似 度 越 高 ， 反之 相似 度 越 低 。 因 为 我 们 通 
过 计算 两 个 向 量 的 点 积 来 计算 余弦 相似 度 , 而 每 一 个 向 量 都 由 文档 中 的 单词 构成 , 所 以 共有 单词 
更 多 的 文档 余弦 相似 度 也 会 更 高 。 

现在 来 看 TF-IDF 如 何 发 挥 作用 。 我 们 有 理由 期 待 ， 即 使 非常 不 同 的 文档 也 可 能 包含 很 多 相 
同 的 常用 词 ( 例如 停 用 词 )。 然 而 ， 因 为 TF-IDF 权 值 较 低 ,这 些 单词 不 会 对 点 积 的 结果 产生 较 大 
影响 ， 也 就 不 会 对 相似 度 的 计算 产生 太 大 影响 。 


例如 ， 我 们 预 佑 两 个 从 曲棍球 新 闻 组 随机 选择 的 新 闻 比 较 相似 。 然 后 看 一 下 是 不 是 这 样 : 
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val hockeyText = rdd.filter { case (file, text) => 
file.contains ("hockey") } 

val hockeyTF = hockeyText .mapValues (doc => 
hashingTF.transform(tokenize (doc))) 

val hockeyTfIidf = idf.transform(hockeyTF.map(_._2)) 


上 面 的 代码 首先 过 滤 原 始 的 输入 RDD， 使 其 只 包含 来 自 曲 棍 球 话题 组 的 消息 。 然 后 使 用 我 
们 的 分 词 和 词 频 转换 函数 。 注意 使 用 的 transform 方法 是 处 理 单个 文档 (形式 为 seq[string] 
的 ) 的 版 本 ， 而 不 是 处 理 包 含 所 有 文档 的 RDD 的 版 本 。 


最 后 ,我 们 使 用 IDF 转换 ( 使 用 之 前 已 经 基于 整个 语 料 集 计算 出 来 的 相同 的 IDF 值 )。 


有 了 hockey 文档 向 量 后 ， 就 可 以 随机 选择 其 中 两 个 向 量 ,并 计算 它们 的 余弦 相似 度 (正如 
之 前 所 做 的 ， 我 们 会 使 用 Breeze 的 线性 代数 函数 ， 即 先 把 MLlib 向 量 转换 成 Breeze 下 的 


SparseVector 实例 ): 












































import breeze.1inalg. 
val hockeyl = hockeyTfIdf.sample 
(true, 0.1, 42) .first.asInstanceOf [SV] 
val breezel = new SparseVector (hockeyl.indices, hockeyl.values, 
hockeyl .size) 
val hockey2 = hockeyTfIdf.sample 

43) .first.asInstanceOf [SV] 


new SparseVector (hockey2.indices, hockey2.values, 


(true, 0.1, 
val breeze2 
hockey2 .size) 
val cosineSim = breezel.dot (breeze2) / (norm(breezel) * 
norm(breeze2)) 

println(cosineSim) 


计算 得 到 两 个 文档 的 余弦 相似 度 大 概 是 0.06: 
0.06700095047242809 


这 个 值 看 起 来 太 低 了 , 但 文本 数据 中 大 量 唯一 的 单词 总 会 使 特征 的 有 效 维度 很 高 。 因 此 , 我 
们 可 以 认为 , 即使 是 两 个 谈论 相同 话题 的 文档 也 可 能 有 着 较 少 的 相同 单词 ,因而 会 有 较 低 的 相似 
度 分 数 。 


作为 对 照 ， 我 们 可 以 和 男 一 个 计算 结果 做 比较 ， 其 中 一 个 文档 来 自 hockey 文档 ， 而 另 一 个 
文档 随机 选择 自 comp.graphics 新 闻 组 ， 计 算 使 用 完全 相同 的 方法 : 


val graphicsText = rdd.filter { 

case (file, text) =>file.contains ("comp.graphics") } 

val graphicsTF = graphicsText.mapValues ( 

doc => hashingTF.transform(tokenize(doc))) 

val graphicsTfIdf = idf.transform(graphicsTF.map(_._2)) 

val graphics = graphicsTfIdf.sample(true, 0.1, 42) 

.first.asInstanceOf [SV] 

val breezeGraphics = new SparseVector(graphics.indices 
,graphics.values, graphics.size) 
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val cosineSim2 = breezel 
.dot (breezeGraphics) / (norm(breezel) * norm(breezeGraphics)) 
println(cosineSim2) 


余弦 相似 度 非常 低 ， 不 到 0.002: 
0.001950124251275256 


最 后 , 相 比 一 篇 计算 机 话题 组 的 文档 , 一 篇 运动 话题 组 的 文档 很 可 能 会 和 曲棍球 文档 有 较 高 
的 相似 度 。 但 我 们 预计 谈论 棒球 的 文档 不 会 和 谈论 曲棍球 的 文档 那么 相似 。 下 面 通过 计算 从 棒球 
新 闻 组 随机 得 到 的 消息 和 曲棍球 文档 的 相似 度 来 看 看 是 否 如 此 : 


val baseballText = rdd.filter { case (file, text) => 
file.contains ("baseball") } 

val baseballTF = baseballText .mapValues (doc => 
hashingTF.transform(tokenize(doc))) 

val baseballTfIdf = idf.transform(baseballTF.map(_._2)) 
val baseball = baseballTfIdf.sample 

(true, 0.1, 42) .first.asInstanceOf [SV] 

val breezeBaseball = new SparseVector(baseball.indices, 
baseball.values, baseball.size) 

val cosineSim3 = breezel.dot (breezeBaseball) / (norm(breezel) * 
norm(breezeBaseball)) 

println(cosineSim3) 


事实 上 ， 正 如 我 们 预料 的 ， 我 们 发 现 棒 球 文档 和 曲棍球 文档 的 余弦 相似 度 是 0.05。 这 与 
comop.graphics 文档 相 比 已 经 很 高 了 ， 但 是 和 另 一 篇 曲棍球 文档 相 比 则 较 低 : 
0.05047395039466008 
上 述 代码 位 于 : 
i https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 10/scala-2.0.x/ 
src/main/scala/TFIDFExtraction.scala。 























10.3.2 ”基于 20 Newsgroups 数据 集 使 用 TF-IDF 训练 文本 分 类 器 


当 使 用 TF-IDF 向 量 时 ,我们 希望 基于 文档 中 共有 的 单词 来 计算 余弦 相似 度 ， 从 而 获得 文档 
之 间 的 相似 度 。 类 似 地 ,我 们 也 希望 通过 使 用 机 器 学 习 模 型 ( 比如 一 个 分 类 模型 ) 学 习 每 个 单词 
的 权重 ; 这 可 以 用 来 区 分 不 同 主题 的 文档 。 也 就 是 说 , 它 应 该 可 以 学 习 到 一 个 从 某 些 单词 是 否 出 
现 (和 权重 ) 到 特定 主题 的 映射 关系 。 


在 20 Newsgroups 的 例子 中 ， 每 一 个 新 闻 组 的 主题 就 是 一 个 类 ， 我 们 能 使 用 TF-IDF 转换 后 
的 向 量 作为 输入 训练 一 个 分 类 器 。 

因为 我 们 将 要 处 理 的 是 一 个 多 分 类 的 问题 , 所 以 我 们 使 用 MLlib 中 的 朴素 贝 叶 斯 方法 ,这 种 
方法 支持 多 分 类 。 第 一 步 ， 引 入 要 使 用 的 Spark 类 : 
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import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.classification.NaiveBayes 
import org.apache.spark.mllib.evaluation.MulticlassMetrics 


下 面 将 保留 聚 类 代码 到 一 个 名 为 DocumentCclassification 的 对 象 里 。 


object DocumentClassification { 
def main(args: Array[lString]) { 
val sc = new SparkContext ("local[2]", "") 


} 

之 后 ， 抽 取 20 个 主题 并 把 它们 转换 到 类 的 映射 。 可 以 像 在 之 一 特征 编码 中 那样 ， 给 每 个 
类 赋予 一 个 数字 下 标 : 

val newsgroupsMap = newsgroups.distinct.collect() .zipWithIndex.toMap 

val zipped = newsgroups.zip (tfidf) 


val train = zipped.map { 
case (topic, vector) => LabeledPoint (newsgroupsMap (topic), vector) } 


train.cache 


在 上 面 的 代码 中 ， 从 newgroups RDD 开始 ， 其 中 每 个 元 素 是 一 个 话题 ， 使 用 zip 函数 把 
它 和 由 TF-IDF 向 量 组 成 的 ffidqf RDD 组 合 。 然 后 对 新 生成 的 zippeq RDD 中 的 每 个 键 值 对 ， 
通过 映射 函数 创建 一 个 LabeledPoint 对 象 , 其 中 每 个 1abel 是 一 个 类 下 标 , 特征 就 是 TF-IDF 


向 量 。 



















































































注意 ，zip 算 子 假设 每 一 个 RDD 有 相同 数量 的 分 片 ， 并 且 每 个 对 应 分 片 有 
相同 数量 的 记录 。 如 果 不 是 这 样 将 会 失败 。 这 里 我 们 可 以 这 么 假设 , 是 因为 事实 
上 tfidf RDD 和 newsgroup RDD 都 是 我 们 对 相同 的 RDD 做 了 一 系列 的 map 
操作 后 得 到 的 ， 都 保留 了 分 片 结构 。 


现在 我 们 有 了 格式 正确 的 输入 RDD， 可 以 简单 地 把 它 传 到 朴素 贝 叶 斯 的 train 方法 中 : 


val model = NaiveBayes.train(train, lambda = 0.1) 


让 我 们 在 测试 数据 集 上 评 佑 一 下 模型 的 性 能 。 我 们 将 从 20news-bydate-test 文件 夹 中 加 载 原 
始 的 测试 数据 , 然后 使 用 wholeTextFiles 把 每 一 条 信息 读 取 为 RDD 中 的 记录 。 再 使 用 和 得 到 
newsgroups RDD 相同 的 方法 从 文件 路 径 中 提取 类 标签 : 
val testPath = "/PATH/20news-bydate-test/*" 
val testRDD = sc.wholeTextFiles (testPath) 
val testLabels = testRDD.map { case (file, text) => 
val topic = file.split("/").takeRight (2) .head 


newsgroupsMap (topic) 


} 


使 用 和 处 理 训 练 集 相同 的 方法 处 理 测试 数据 集中 的 文本 。 这 里 将 应 用 我 们 的 tokenize 方 
法 ， 然 后 使 用 词 频 转换 ， 之 后 再 次 使 用 从 训练 数据 中 计算 得 到 的 完全 相同 的 IDF， 把 TF 向 量 转 
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换 为 TF-IDF 向 量 。 最 后 , 合并 测试 类 标签 和 TF-IDF 向 量 , 创建 我 们 的 测试 RDD [LabeledPoint]: 


val testTf = testRDD.map { 
case (file, text) => hashingTF.transform(tokenize(text)) } 
val testTfIidf = idf.transform(testTf) 
val zippedTest = testLabels.zip(testTfIdf) 
val test = zippedTest.map { 
case (topic, vector) => LabeledPoint (topic, vector) } 


注意 ， 有 一 点 很 重要 ， 我 们 使 用 训练 集 的 IDF 来 转换 测试 集 ， 这 会 在 新 数 

据 集 上 产生 更 加 真实 的 模型 估计 ， 因 为 新 的 数据 集 上 包含 训练 集 没有 训练 的 单 

(9 词 。 如 果 基 于 测试 集 重 新 计算 IDF 向 量 会 比较 “ 取 巧 ”， 且 更 重要 的 是 ， 有 可 能 
对 通过 交叉 验证 产生 的 模型 最 优 参数 做 出 非常 严重 的 错误 估计 。 


现在 我 们 准备 计算 预测 结果 和 模型 的 真实 类 标签 。 我 们 将 使 用 RDD 为 模型 计算 准确 度 和 多 
分 类 加 权 下 -指标 ( weighted F-measure ): 











val predictionAndLabel = test.map(p => (model.predict (p.features), p.label)) 
val accuracy = 1.0 * predictionAndLabel 
yfiltetr(X ES Kh es KX 2 COUNt() "test eount() 
val metrics = new MulticlassMetrics (predictionAndLabel) 
println(accuracy) 
println(metrics.weightedFMeasure) 


加 权 FF- 指标 是 一 个 综合 了 准确 率 和 下 -指标 的 指标 ( 这 里 类 似 ROC 曲线 下 的 
面积 ， 当 接近 1.0 时 有 较 好 的 表现 )， 并 通过 类 之 间 加 权 平 均 整 合 。 





可 以 看 到 ， 我 们 简单 的 多 分 类 朴素 贝 叶 斯 模型 在 准确 率 和 召回 率 上 均 接 近 80%: 


0.7915560276155071 
0.7810675969031116 


上 述 代 码 位 于 : 
人 0 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 10/scala-2.0.x/ 


src/main/scala/DocumentClassification.scala, 


10.4 ”评估 文本 处 理 技术 的 作用 


文本 处 理 技术 和 TF-IDF 加 权 是 特征 提取 技术 的 实例 ， 设 计 目 的 在 于 降低 原始 文本 数据 的 维 
度 和 从 中 提取 某 些 结构 信息 。 比 较 基 于 原始 文本 数据 训练 得 到 的 模型 和 基于 经 过 处 理 及 TF-IDF 
加 权 得 到 的 数据 训练 出 来 的 模型 ， 可 以 看 到 应 用 这 些 处 理 技术 的 影 





























可 


o 


比较 原始 特征 和 处 理 过 的 TF-IDF 特征 
在 这 个 例子 中 , 我 们 在 用 空白 分 词 处 理 后 的 原始 文本 上 应 用 散 列 单词 频率 转换 。 我们 将 在 这 些 








10.$ Spark 2.0 上 的 文本 分 类 329 





文本 上 训练 模型 ， 并 评估 其 在 测试 集 上 的 表现 ， 就 像 对 使 用 TF-IDF 特征 训练 的 模型 所 做 的 那样 : 


Val rawTokens = rdd.map { case (file, text) => text.split(" ") } 
val rawTF = texrawTokenst.map(doc => hashingTF.transform(doc)) 
val rawTrain = newsgroups .zip(rawTF) .map { 

case (topic, vector) => LabeledPoint (newsgroupsMap (topic), vector) } 
val rawModel = NaiveBayes.train(rawTrain, lambda = 0.1) 

val rawTestTF = testRDD.map { 

case (file, text) => hashingTF.transform(text.split(" ")) } 
val rawZzippedTest = testLabels.zip (rawTestTF) 

val rawTest = rawZippedTest.map { case (topic, vector) => 
LabeledPoint (topic, vector) } 

val rawPredictionAndLabel = rawTest 

.map(p => (rawModel.predict (p.features), p.label)) 

val rawAccuracy = 1.0 * rawPpredictionAndLabel 

ilter(w .=> Xl == KK. 2) NCOUUNt() / rawTest .C0unt() 
println(rawAccuracy) 

val rawMetrics = new MulticlassMetrics (rawPredictionAndLabel) 
println (rawMetrics.weightedFMeasure) 


结果 可 能 会 令 人 惊讶 ， 尽 管 准 确 率 和 下 -指标 比 TF-IDF 模型 低 几 个 百分点 ， 原 始 模型 的 表现 
其 实 也 不 错 。 这 也 部 分 反映 了 一 个 事实 , 即 朴素 贝 叶 斯 模型 能 很 好 地 适用 于 原始 词 频 格式 的 数据 : 


0.7661975570897503 
0.7628947184990661 























10.5 Spark 2.0 上 的 文本 分 类 


这 一 节 会 通过 以 Spark DataFrame 为 基础 的 API， 对 libsvm 格式 化 后 的 20newsgroup 数据 集 
做 文本 分 类 。 当 前 的 Spark 版 本 对 libsvm v3.22 提供 了 支持 ( https:/www.csie.ntu.edu.tw/~cjlin/ 
libsvmtools/datasets/ )。 


从 如 下 链接 下 载 libsvm 格式 化 后 的 数据 , 并 将 其 中 的 output 目录 复制 到 Spark-2.0.x 目录 下 。 


Wir 








libsvm 格式 化 后 的 20newsgroup 数据 位 于 : https://onedrive.live.com/?authkey=%21ADiq5SUO 
clzoboM&id=FE688BD099939FFE%211119&cid=FE688BD099939FFE。 


下 列 Scala 代码 从 org.apache.spark.ml 导 和 人 相关 的 包 ， 并 才 


package org.apache.spark.examples.ml 


-EE 
人 : 





性 





import org.apache.spark.SparkConf 
import org.apache.spark.ml.classification.NaiveBayes 
import org.apache.spark.ml .evaluation.MulticlassClassificationEvaluator 


import org.apache.spark.sql.SparkSession 


object DocumentClassificationLibSVvM { 
def main(args: Arrayl[String]): Unit = { 
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// 这 里 写 后 续 具 体 实现 代码 
9 
之 后 ,将 libsvm 格式 数据 导入 到 一 个 Spark DataFrame 中 : 


val spConfig = (new SparkConf) 
.SetMaster ("local") 
.SetAppName ("SparkApp") 

val spark = SparkSession 
.builder() 
.appName ("SparkRatingData") 
.config (spConfig) 
.getOrCreate() 





val data = spark.read.format ("libsvm") 
.load("./output/20news-by-date-train-libsvm/part-combined") 


val Array (trainingData, testData) = data.randomSplit (Array (0.7, 0.3), seed = 1L) 


下 面 实例 化 一 个 NaiveBayes 类 对 象 , 并 训练 该 模型 。 该 类 来 自 org.apache.spark.ml. 


classification.NaiveBayeso 


val model = new NaiveBayes () 

.fit (trainingData) 
val predictions = model.transform(testData) 
predictions.show!() 


上 述 show () 函数 的 输出 如 下 : 


10.01(262141, [14,63,64...1[-8972.9535882773... 
10.01(262141, [14,329,6...1[-5078.5468878602... 
10.01(262141, [14,448,5...|1[-3376.8302696656... 
10.01(262141, [15,5173,...|1[-8741.7756643949...|1[1.0,0.0,2.606005...| 0.0| 
10.01(262141, [168,170,...|1[-41636.025208445...1[1.0,0.0,0.0,0.0,...|1 0.01 


[1.0,0.0,1.009147...| 0.01 
[1.0,0.0,0.0,0.0,...| 0.0| 
[1.0,0.0,2 





最 后 测试 模型 的 准确 率 : 





val evaluator = new MulticlassClassificationEvaluator() 
.SetLabelCol ("label") 
.SetPredictionCol ("prediction") 
.SetMetricName ("accuracy") 
val accuracy = evaluator.evaluate (predictions) 
println("Test set accuracy = " + accuracy) 
SPDark .stop () 


从 如 下 输出 可 看 出 模型 的 准确 率 在 0.8 以 上 : 


Test set accuracy = 0.8768458357944477 
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事实 上 ， 相 比 Spark 1.6，Spark 2.0 中 朴素 贝 叶 斯 的 性 能 更 好 。 


0 上 述 代 码 位 于 : https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter_ 10/ 


scala-2.0.x/src/main/scala/DocumentClassificationLibSVM .scala。 


10.6 ”Word2Vec 模型 


到 目前 为 止 ， 我 们 一 直 用 词 袋 向 量 模型 来 表示 文本 ， 并 选择 性 地 使 用 一 些 加 权 模 式 ， 比 如 
TF-IDF。 田 一 类 最 近 比 较 流行 的 模型 是 把 每 一 个 单词 表示 成 一 个 向 量 。 


这 些 模型 一 般 基于 一 个 语 料 集中 单词 间 共 现 的 统计 量 来 构造 。 一旦 算出 向 量 表示 , 就 可 以 像 
使 用 TF-IDF 向 量 一 样 使 用 这 些 向 量 ( 例如 将 它们 作为 其 他 机 器 学 习 模型 的 特征 ) 一 个 比较 常见 
的 用 例 是 ,使 用 单词 的 向 量 表示 基于 单词 的 含义 计算 两 个 单词 的 相似 度 。 


Word2Vec 就 是 这 些 模型 中 的 一 个 具体 实现 ， 常 称 作 分 布 式 向 量 表示 ( distributed vector 
representations )。MLlib 模型 使 用 一 种 skip-gram 模型 ， 这 是 一 种 考虑 了 单词 出 现 的 上 下 文 来 学 习 
词 向 量 表示 的 模型 。 


Word2Vec 的 细节 实现 超出 了 本 书 讨论 的 范围 , Spark 的 文档 可 以 在 下 面 的 网 
址 找到 : http://spark.apache.org/docs/latest/mllib-feature-extraction.html#word2vec， 
其 中 包含 了 更 多 的 算法 细节 ， 还 有 相关 实现 的 链接 。 
党 关于 Word2Vec 的 一 篇 主要 的 学 术 论 文 如 下 : 









































MIKOLOYV T, CHEN K, CORRADO G, et al. Efficient estimation of word 
representations in vector space [Cl]// Proceedings of Workshop at ICLR, 2013. 
另 一 个 近期 的 词 向 量 表示 模型 是 GloVe, 可 以 在 https://www-nlp.stanford.edu/ 
projects/glove/ 找 到 介绍 。 
读者 也 可 以 利用 第 三 方 库 来 实现 词性 标注 (parts of speech tagging )。 比 如 ，Stanford NLP 库 
便 可 整合 到 Scala 代码 中 。 如 下 链接 提供 了 更 多 有 关 实 现 整合 的 细节 : https://stackoverflow.com/ 
questions/18416561/pos-tagging-in-scala。 








10.6.1 借助 Spark MLilib 训练 Word2Vec 模型 


在 Spark 中 训练 一 个 Word2Vec 模型 相对 简单 。 我 们 需要 传递 一 个 RDD ， 其 中 每 个 元 素 都 是 
一 个 单词 的 序列 。 可 以 使 用 我 们 之 前 得 到 的 分 词 后 的 文档 来 作为 模型 的 输入 。 


首先 导入 数据 集 ， 并 做 分 词 : 


val sc = new SparkContext ("local[2]", "Word2Vector App") 














val path = "../data/20news-bydate-train/*" 
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val rdd = sc.wholeTextFiles (path) 

val text = rdd.map { case (file, text) => text } 

val newsgroups = rdd.map { 
case (file, text) => file.split("/").takeRight (2).head 

} 

val newsgroupsMap = newsgroups.distinct.collect() 
.ZipWithIndex.toMap 

val dim = math.pow(2, 18) .toInt 


Var tokens = text.map(doc => TFIDFExtraction.tokenize(doc)) 











词 项 经 TF-IDF 处 理 后 ， 把 它们 作为 Word2Vec 的 起 点 。 接 下 来 创建 该 Word2Vec 的 实例 ,并 











设置 随机 种 子 参数 : 


import org.apache.spark.mllib.feature.Word2Vec 
val word2vec = new Word2Vec() 
word2vec.setSeed (42) 


再 以 上 述 词 项 为 输入 ， 调 用 fit 函数 来 训练 模型 : 

















val word2vecModel = word2vec.fit (Lokens ) 


在 训练 过 程 中 ， 应 该 会 有 一 些 输出 提示 。 





训练 好 后 ,很 容易 找 出 给 定 词 的 前 上 个 同义词 ( 即 与 该 词 以 余弦 相似 度 计算 对 应 的 词 向 量 最 
为 相近 的 近似 词 )。 比 如 ， 要 找 出 phiosophers 的 前 5 个 近似 词 ， 用 如 下 代码 即 可 : 


word2vecModel .findSynonyms ("phiosophers", 5).foreach (println) 
SC.stop() 


其 输出 如 下 : 


(year,0.8417112940969042) 
(motivations,0.833017707021745) 
(solution,0.8284719617235932) 
(whereas,0.8242997325042509) 
(formed,0.8042383351975712) 


上 述 代码 位 于 : 


PD https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 10/scala-2.0.x/ 


src/main/scala/Word2VecMllib.scala, 


10.6.2 ”借助 Spark ML 训练 Word2Vec 模型 


这 一 节 看 下 如 何 使 用 Spark ML DataFrame 和 Spark 2.0.x 的 实现 来 创建 一 个 Word2Vec 模型 。 


首先 从 数据 集 创 建 DataFrame 实例 : 


val spConfig = (new SparkConf) 
.SetMaster ("local") 


10.6 ”Word2Vec 模型 333 





.SetAppName ("SparkApp") 

val spark = SparkSession 
.builder 
.appName ("Word2Vec example") 
.config (spConfig) 
.getOrCreate() 


import Spark.implicits. 


val rawDF = spark.sparkContext 
.WholeTextFiles("../data/20news-bydate-train/*") 


val textDF = rawDF.map(x => x._2.split(" ")) 


.map (Tuplel .apply) 
.toDF ("text") 


之 后 创建 Word2vVec 类 ， 并 在 上 述 textDf DataFrame 上 训练 模型 ; 





val word2Vec = new Word2Vec() 
.SetInputCol ("text") 
.SetOutputCol ("result") 
.SetVectorSize(3) 
.SetMinCount (0) 

val model = word2Vec.fit (textDF) 

val result = model.transform(textDF) 


下 面 找 出 hockey 前 5 个 近似 词 : 


val ds = model.findSynonyms ("hockey", 5).select ("word") 
ds.rdd.saveAsTextFile("./output/hockey-synonyms") 

Qs .Show() 

spark.stop() 


其 输出 如 下 : 


| Fess | 
| guide | 
lvalidinferencel 
| problems. | 


| paperback 1 10 
可 以 看 出 , 与 使 用 Spark MLlib 时 相 比 , 输出 有 很 大 不 同 。 这 是 因为 Spark 1.6 与 Spark 2.0/2.1 
中 的 Word2Vector 转换 实现 不 相同 。 





上 述 代码 位 于 : 
0 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 10/scala-2.0.x/ 
src/main/scala/ Word2VecMl.scala。 
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10.7 ”小结 


在 这 一 章 中 , 我 们 更 深入 地 了 解 了 复杂 的 文本 处 理 技 术 , 并 探索 了 MLlib 的 文本 特征 提取 能 
力 , 特别 是 TF-IDF 单词 加 权 方 式 。 我 们 学 习 了 使 用 TF-IDF 特征 向 量 的 结果 来 计算 文本 相似 度 并 
训练 新 闻 组 话题 分 类 模型 的 例子 ， 以 及 怎么 使 用 前 沿 的 Word2Vec 模型 来 计算 一 个 语 料 集 中 单词 
的 向 量 表 示 , 并 使 用 训练 好 的 模型 找到 和 给 定单 词 上 下 文 语义 相近 的 词 。 我 们 还 介绍 了 如 何 使 用 
Spark ML 中 的 Word2Vec 模型 。 


在 下 一 章 中 ,我 们 将 了 解 在 线 学 习 ， 并 讨论 如 何 使 用 Spark Streaming 来 训练 在 线 学 习 模 型 。 
























































Spark Streaming 实时 机 器 
学 习 








本 书 到 目前 为 止 一 直 重 点 讲解 批量 数据 处 理 , 也 就 是 我 们 所 有 的 分 析 、 特 征 提取 和 模型 训练 
都 被 应 用 于 一 组 固定 不 变 的 数据 。 这 十 分 适用 于 Spark 对 RDD 的 核心 抽象 ， 即 不 可 变 的 分 布 式 
数据 集 。 尽 管 可 以 使 用 Spark 的 转换 算 子 和 执行 算 子 从 原始 的 RDD 创建 新 RDD ,但 是 RDD 一 
且 创 建 ， 其 中 包含 的 数据 就 不 会 改变 。 


之 前 的 章节 集中 于 批量 机 器 学 习 模 型 , 训练 模型 的 固定 训练 集 通 常 表示 为 一 个 特征 向 量 (在 
监督 学 习 模型 中 是 标签 ) 的 RDD。 

本 章 ， 我 们 将 : 
口 介绍 在 线 学 习 的 概念 ， 当 新 的 数据 出 现时 ， 模 型 将 被 训练 和 更 新 ; 
口 学 习 使 用 Spark Streaming 做 流 处 理 ; 
口 如 何 将 Spark Streaming 应 用 于 在 线 学 习 ; 
口 介绍 Structured Streaming。 


后 续 小 节 将 把 RDD 当 作 分 布 式 数据 集 。 DataFrame 和 SQL 操作 也 可 通过 类 似 方式 操作 流 数据 。 










































































DataFrame 和 SQL 操作 的 更 多 信息 参见 : https://spark.apache.org/docs/2.0.0- 
preview/sql-programming-guide.html。 


11.1 在 线 学 习 

之 前 章节 所 应 用 的 批量 机 器 学 习 模 型 重点 关注 处 理 已 存在 的 固定 训练 集 。 一 般 来 说 ,这些 方 
法 也 是 迭代 式 的 ， 即 在 训练 集 上 实施 多 轮 处理 直 到 收敛 到 最 优 模型 。 

相 比 于 离线 计算 , 在 线 学 习 是 以 对 训练 数据 通过 完全 增 量 的 形式 顺序 处 理 一 遍 为 基础 ( 就 是 
说 ,一 次 只 训练 一 个 样本 )。 当 处 理 完 每 一 个 训练 样本 后 ， 模 型 会 对 测试 样本 做 预测 并 得 到 正确 
的 输出 ( 例如 得 到 分 类 的 标签 或 者 回归 的 真实 目标 )。 在 线 学 习 背 后 的 理念 就 是 模型 随 着 接收 到 
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新 的 消息 不 断 更 新 自己 ， 而 不 是 像 离 线 训 练 一 次 次 重新 训练 。 


某 些 情况 下 ， 当 数据 量 很 大 的 时 候 , 或 者 生成 数据 的 过 程 快 速 变化 的 时 候 , 在 线 学 习 方 法 可 
以 快速 、 接 近 实 时 地 响应 ， 而 无 须 如 离线 学 习 一 般 进行 代价 高 昂 的 重新 训练 。 


然而 ， 在 线 学 习 方 法 并 不 是 必须 以 完全 在 线 的 方式 使 用 。 事 实 上 ， 当 我 们 使 用 SGD 优化 方 
法 训练 分 类 和 回归 模型 时 , 已 经 学 习 了 在 离线 环境 下 使 用 在 线 学 习 模 型 的 例子 。 每 处 理 完 一 个 样 
本 ，SGD 就 更 新 一 次 模型 。 然 而 ,为 了 收敛 到 更 好 的 结果 ， 我 们 仍然 对 整个 训练 集 处 理 了 多 次 。 


在 完全 在 线 环境 中 ,我 们 不 会 (或 者 也 许 不 能 ) 对 整个 训练 集 做 多 次 训练 ,因此 当 输入 到 达 
时 我 们 需要 立刻 处 理 。 在 线 方法 还 包括 小 批量 离线 方法 ， 即 并 不 是 每 次 处 理 一 个 输入 ， 而 是 每 次 
处 理 一 个 小 批量 的 训练 数据 。 

在 线 和 离线 的 方法 在 真实 场景 中 也 可 以 组 合 使 用 。 例 如 ， 我 们 可 以 周期 性 地 ( 比方 说 每 天 ) 
使 用 批量 方法 离线 重新 训练 模型 ,然后 在 生产 环境 中 应 用 模型 ,并 使 用 在 线 方 法 实时 ( 即 在 这 一 
天 之 中 , 在 两 次 离线 数据 训练 之 间 ) 更 新 模型 以 适应 环境 中 的 变化 。 这 与 Lambda 架构 非常 相似 ， 
Lambda 架构 是 一 种 既 支 持 批 处 理 又 支持 流 处 理 的 数据 处 理 架 构 。 


本 章 我 们 将 会 看 到 ， 在 线 学 习 环 境 非常 适合 流 处 理 和 Spark Streaming 框架 。 
















































































i 更 多 关于 在 线 机 器 学 习 的 资料 参见 : https://en.wikipedia.org/wiki/Online_ 


machine learning。 


11.2 ” 流 处 理 


在 学 习 如 何 使 用 Spark 进行 在 线 学 习 之 前 ， 我 们 首先 需要 了 解 流 处 理 的 基础 知识 和 Spark 
Streaming 库 。 

除了 核心 API 和 功能 ，Spark 项 目 还 包含 男 一 个 主要 的 子 项 目 (和 MLlib 一 样 )， 名 为 Spark 
Streaming， 主 要 负责 实时 处 理 数据 流 。 

数据 流 是 连续 的 记录 序列 。 常 见 的 例子 包括 从 网 页 和 移动 应 用 获取 的 活动 流 数 据 、 时 间 戳 晶 
志文 件 、 交 易 数据 ， 甚 至 传感器 或 者 设备 网 络 传 人 的 事件 流 。 

批 处 理 的 方法 一 般 包括 将 数据 流 保存 到 一 个 临时 的 存储 系统 ( 如 HDFS 或 数据 库 ) 和 在 存储 
的 数据 上 运行 批 处 理 。 为 了 生成 最 新 的 结果 , 批 处 理 必 须 在 最 新 的 可 用 数据 上 周期 性 地 运行 〈 例 
如 每 天 、 每 小 时 甚至 几 分 钟 一 次 )。 

相反 ， 流 处 理 方法 是 当 数 据 产生 时 就 开始 处 理 ， 接近 实时 ( 从 不 足 一 秒 到 十 几 分 之 一 秒 ， 而 
非 批 处 理 的 以 分 钟 、 小 时 、 天 其 至 周 计 )。 
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11.2.1 Spark Streaming 介绍 
处 理 流 计算 有 几 种 通用 的 技术 ， 其 中 最 常见 的 两 种 如 下 : 


口 单独 处 理 每 条 记录 ， 并 在 记录 出 现时 立刻 处 理 ; 
口 把 多 个 记录 组 合 为 小 批量 任务 ， 可 以 通过 记录 数量 或 者 时 间 长 度 切 分 出 来 。 


Spark Streaming 使 用 第 二 种 方法 ， 其 核心 概念 是 离散 化 流 ( DStream，discretized stream )。 一 
个 DStream 是 指 一 个 小 批量 作业 的 序列 , 每 一 个 小 批量 作业 表示 为 一 个 Spark RDD, 如 下 图 所 示 。 





Ey 
































离散 化 流 











上 
批 处 理 间 隔 














离散 化 流 的 抽象 表示 


离散 化 流 是 通过 输入 数据 源 和 叫 作 批 处 理 间 隔 (batch interval ) 的 时 间 窗 口 来 定义 的 。 数 据 
流 被 分 成 和 批 处 理 间隔 相等 的 时 间 段 (从 应 用 开始 执行 开始 )。 流 中 每 一 个 RDD 将 包含 从 Spark 
Streaming 应 用 程序 接收 到 的 一 个 批 处 理 间隔 内 的 记录 。 如 果 在 所 给 时 间 间 隔 内 没有 数据 产生 ， 
将 得 到 一 个 空 的 RDD。 


1. 输入 源 
Spark Streaming 接收 端 负责 从 数据 源 接收 数据 并 转换 成 由 Spark RDD 组 成 的 DStream。 


Spark Streaming 支持 多 种 输入 源 ， 包 括 基 于 文件 的 源 ( 接收 端 在 输入 位 置 等 待 新 文件 ， 然 后 
从 新 文件 中 读 取 内 容 并 创建 DStream ) 和 基于 网 络 的 输入 源 ( 数据 来 自 基 于 网 络 套 接 字 的 数据 源 、 
Twitter API 流 、Akka actors 或 消息 队列 ， 以 及 Flume 、Kafka 、Amazon Kinesis 等 分 布 式 流 及 日 志 
传输 框架 )。 























0 关于 更 多 输入 源 的 细节 和 各 种 更 高 级 的 输入 源 ， 请 参考 这 里 : http:/spark. 


apache.org/docs/latest/streaming-programming-guide.html#input-dstreams。 
2. 转换 
正如 我 们 在 第 1 章 和 其 他 章 看 到 的 ，Spark 支持 对 RDD 进行 各 种 转换 。 


为 DStream 是 由 RDD 组 成 的 ， 所 以 Spark Streaming 提供 了 一 个 可 以 在 DStream 上 使 用 的 
转换 集合 ,， 这些 转换 和 RDD 上 可 用 的 转换 类 似 , 包括 map、flatMap、join 和 reduceByKey。 





























338 第 11 章 Spark Streaming 实时 机 器 学 习 





Spark Streaming 的 转换 〈 比如 可 应 用 于 RDD 的 那些 ) 操作 DStream 包含 的 数据 。 也 就 是 说 ， 
这 些 转换 应 用 于 DStream 的 每 个 RDD， 进 而 应 用 于 RDD 的 每 个 元 素 上 。 











Spark Streaming 还 提供 了 reduce 和 count 这 样 的 算 子 ， 它 们 返回 由 一 个 元 素 ( 如 每 批 的 
数目 ) 组 成 的 DStream 对 象 。 与 RDD 上 的 算 子 不 同 ， 这 些 算 子 不 会 直接 触发 DStream 计算 。 也 
就 是 说 ， 它 们 不 是 执行 算 子 ， 但 仍然 是 转换 算 子 ， 因 为 它们 会 返回 另 一 个 DStream。 


(1) 状态 跟踪 


处 理 RDD 的 批量 计算 时 ,维护 和 更 新 一 个 状态 变量 比较 简单 。 可 以 从 某 个 状态 ( 如 值 的 数 
目 或 和 ) 开始 ,然后 使 用 广播 变量 或 者 累 增 变量 来 并 行 更 新 这 个 状态 。 一般 来 说 , 我 们 可 以 使 用 
RDD 的 执行 算 子 来 收集 并 更 新 驱动 端的 状态 ， 然 后 更 新 全 局 状态 。 


使 用 DStream 时 这 样 的 操作 会 有 点 复杂 ， 因 为 需要 在 容错 的 前 提 下 跟踪 批量 数据 的 状态 。 
Spark Streaming 提供 了 updateStateByKey 子 数 来 处 理 DStream 中 的 键 值 对 ， 比 较 方便 地 为 我 
们 解决 了 这 种 问题 。 这 个 方法 帮助 我 们 创建 某 种 状态 信息 组 成 的 流 , 并 在 每 次 遇 到 批量 任务 时 更 
新 它 。 比 如 ,状态 可 以 是 各 个 Key 已 经 出 现 的 全 局 总 次 数 。 因 此 , 这 里 的 状态 可 以 是 每 一 个 网 页 
被 访问 的 次 数 ， 每 一 个 广告 被 点 击 的 次 数 ， 每 一 个 用 户 发 表 的 推 文 的 数量 , 或 者 每 个 产品 被 购买 
的 次 数 。 


(2) 一 般 转换 


Spark Streaming 的 API 也 提供 了 一 般 的 transform 水 数 , 以 方便 用 户 访问 流 中 每 个 RDD 含 
有 的 批量 数据 。 也 就 是 说 ， 更 高 层 的 函数 (如 map ) 将 一 个 DStream 转换 为 男 一 个 DStream， 而 
transform 让 我 们 可 以 将 一 个 RDD 的 函数 应 用 到 另 一 个 RDD 上 。 例 如 ， 我 们 可 以 使 用 RDD 的 
join 算 子 将 流 中 的 每 一 批 数据 和 已 经 存在 的 不 是 我 们 的 streaming 应 用 ( 可 能 是 Spark 或 者 其 他 
系统 ) 生成 的 RDD 联合 起 来 。 


















































PP 完整 的 转换 函数 列表 和 这 些 函 数 的 更 多 信息 请 参考 Spark 文档 : http://spark. 


apache.org/docs/latest/streaming-programming-guide.html#transformations-on-dstreams。 
3. 执行 算 子 


Spark Streaming 中 的 某 些 算 子 ( 如 count ) 不 像 批量 RDD 中 那样 是 执行 算 子 。Spark Streaming 
自己 有 一 套 在 DStream 之 上 的 执行 算 子 的 概念 。 执行 算 子 是 输出 算 子 , 调用 时 会 触发 DStream 之 
上 的 计算 ， 比 如 下 面 几 个 。 


D print: 输出 每 个 批量 处 理 的 前 10 个 元 素 到 控制 台 ， 一 般 用 来 做 调试 和 测试 。 
口 saveAsobjectFile、saveAsTextFiles 和 saveAsHadoopFiles: 这 几 个 函数 把 每 一 


批 数 据 输出 到 Hadoop 的 文件 系统 中 ， 并 用 批量 数据 的 开始 时 间 戳 来 命名 。 
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口 forEachRDD: 这 个 算 子 是 最 常用 的 , 允许 用 户 对 DStream 的 每 一 个 批量 数据 对 应 的 RDD 
本 身 做 任意 操作 。 经 常用 来 产生 附加 效果 ， 比 如 将 数据 保存 到 外 部 系统 、 打 印 测 试 、 导 
出 到 图 表 等 。 





注意 ,就 像 Spark 批 处 理 一 样 ,DStream 算 子 是 懒惰 的 ,就 像 我 们 需要 在 RDD 
调用 执行 算 子 (如 count ) 以 保证 处 理 开始 ， 我 们 同样 需要 调用 上 面 执行 算 子 
中 的 一 个 来 触发 DStream 上 的 计算 。 否则 , 我 们 的 流 式 应 用 并 不 会 真 的 执行 任何 
计算 。 


4. 窗口 算 子 


为 Spark Streaming 基于 时 间 顺 序 批量 处 理 数据 流 , 所 以 引入 了 一 个 新 的 概念 , 叫 作 时 间 窗 
(windowing )。wingdow 图 数 计算 应 用 在 流 上 的 请 动 窗口 中 的 数据 转换 。 

窗口 由 窗口 长 度 和 和 滑 劲 间隔 定义 。 例 如 ,10 秘 的 窗口 和 5 秒 的 滑动 间隔 可 以 定义 一 个 窗口 ， 
它 每 5 秒 计算 一 次 前 10 秒 接收 的 DStream 数据 。 例 如 ， 可 以 计算 前 10 秒 中 按 页 面 浏览 数量 计算 
的 网 站 排名 ， 使 用 滑动 窗口 每 5 秒 重 算 一 次 。 


下 图 展示 了 这 种 窗口 DStream: 














离散 化 流 


| 一 1 
请 动 间隔 





















































窗口 DStream 





11.2.2 Spark Streaming 缓存 和 容错 机 制 


和 Spark 的 RDD 一 样 ，DStream 也 可 以 缓存 在 内 存 里 。 缓 存 的 使 用 场景 也 和 RDD 类 似 ， 如 
果 需 要 多 次 访问 DStream 中 的 数据 (也许 是 执行 多 次 不 同 的 分 析 和 聚合 或 者 输出 到 多 个 外 部 系 
统 ), 缓存 会 带 来 很 大 好 人 处。 状态 相关 的 算 子 , 包括 window 函数 和 updateStateByKey, 为 提 
高 效率 都 会 缓存 。 


之 前 讲 过 RDD 是 不 可 变 的 数据 集合 ， 并 由 输入 数据 源 和 类 和 群 ( lineage ) 定义 。 所 谓 类 群 ， 
就 是 应 用 到 RDD 上 的 转换 算 子 和 执行 算 子 的 集合 。RDD 中 的 容错 就 是 重建 因为 工作 节点 故障 而 
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丢失 的 RDD (或 RDD 的 分 片 )。 


因为 DStream 本 身 是 批量 的 RDD,， 所 以 它们 可 以 被 重 算 以 应 对 工作 节点 故障 的 情况 。 然 而 ， 
这 依赖 于 输入 数据 依然 可 用 。 如 果 数 据 源 本 身 是 容错 的 并 且 是 持久 化 的 (HDFS 或 者 一 些 其 他 的 
容错 数据 源 )， 那 么 DStream 就 可 以 重 算 。 


如 果 数 据 流 的 源头 来 自 于 网 络 ( 在 流 处 理 中 很 常见 )，Spark Streaming 的 默认 持久 化 方式 就 
是 将 数据 复制 到 两 个 工作 节点 。 这 就 保证 了 网 络 DStreams 可 以 在 故障 的 情况 下 重 算 。 然 而 需要 
注意 ， 节 点 接收 到 但 是 还 没有 复制 的 任何 数据 都 可 能 在 节点 故障 的 时 候 丢失 。 


Spark Streaming 也 支持 故障 时 从 驱动 节点 恢复 。 但 是 在 处 理 网 络 流入 的 数据 时 ， 工 作 节 点 内 
存 中 的 数据 还 是 会 丢失 。 因 此 ，Spark Streaming 在 驱动 节点 故障 或 者 程序 失败 时 并 不 能 支持 完 
容错 。Lambda 架构 能 应 对 该 场景 。 比 如 ， 借 助 夜间 批 次 (nightlybatch ) 来 修复 该 类 故障 引起 的 
问题 。 





















































更 多 细节 请 参见 http://spark.apache.org/docs/latest/streaming-programming-guide. 
0 html#caching-persistence 和 http://spark.apache.org/docs/latest/streaming-programming- 
guide.html#fault-tolerance-properties。 


11.3 创建 Spark Streaming 应 用 


我 们 将 通过 创建 第 一 个 Spark Streaming 应 用 来 演示 之 前 介绍 的 Spark Streaming 相关 的 基本 











接 下 来 我 们 扩展 第 1 章 的 样 例 程序 。 当 时 我 们 用 了 一 个 简单 的 产品 购买 活动 的 样 例 数据 集 。 
在 这 个 例子 中 , 我 们 不 使 用 静态 数据 集 , 而 是 创建 一 个 简单 的 应 用 来 随机 生成 活动 并 通过 网 络 发 
送 。 然 后 ， 将 创建 几 个 Spark Streaming 消费 者 应 用 来 处 理 这 个 事件 流 。 


本 章 的 项 目 文件 里 包含 所 需 的 代码 。 项 目 名 字 叫 scala-spark-streaming-app， 其 中 包含 一 个 
Scala SBT 项 目 定义 文件 、 样 例 程 序 代 码 和 \srcwmainNesources 目录 下 叫 names.csv 的 资源 文件 。 


build.sbt 文件 包含 以 下 项 目 定义 : 








name := "scala-spark-streaming-app-11" 
VErPSTON FE: TLIO 
scalaVersion := "2.11.7" 


val sparkVersion = "2.0.0" 


libraryDependencies ++= Seqg( 
"org.apache.spark" %% "spark-core" % sparkVersion, 
"org.apache.spark" %% "spark-mllib" % sparkVersion, 
"org.jfree" % "jfreechart" % "1.0.14", 
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[es) 


"com.github.wookietreiber" % "Scala-chart_ 2.11" % "0.5.0", 


[es) 


"org.apache.spark" %% "spark-streaming" % sparkVersion 


) 


注意 ， 我 们 加 了 对 Spark MLlib 和 Spark Streaming 的 依赖 ， 其 中 已 经 包含 了 对 Spark 内 核 的 
依赖 。 


names.csv 文件 含有 20 个 随机 生成 的 用 户 名 。 我 们 将 使 用 这 些 名 字 作 为 该 应 用 的 数据 生成 函 
数 的 一 部 分 : 


Miguel,Eric,James,Juan, Shawn, James,Doug,Gary,Frank,Janet,Michael, 
James,Malinda,Mike,Elaine,Kevin,Janet,Richard,sSaul,Manuela 


11.3.1 消息 生成 器 


消息 生成 器 需要 创建 一 个 网 络 连接 ， 并 且 随 机 生成 购买 活动 数据 并 通过 这 个 连接 发 送出 去 。 
首先 ， 我们 会 定义 对 象 科 主 函数 。 然 后 从 names.csv 源 读 和 人 随机 姓名 并 创建 一 个 产品 价格 集合 ， 
生成 随机 产品 活动 : 
/大 大 
* 随机 生成 “产品 活动 ”的 消息 生成 器 
* 每 秒 最 多 生成 5 个 ， 然 后 通过 网 络 连 接 发 送 
wy 
object StreamingProducer { 


























def main(args: Array[lString]) { 
val random = new Random() 


// 每 秒 最 大 活动 数 
val MaxEvents = 6 


// 读 取 可 能 的 姓名 列表 
val namesResource = 
this.getClass.getResourceAsStream("/names.csv") 
val names = scala.io.Source.fromInputStream(namesResource) 
.getLines () 
.toList 
.head 
val ,Ty 
.toSeq 





// 生成 一 系列 可 能 的 产品 

val products = Seql( 
"iPhone Cover" -> 9.99， 
"Headphones" -> 5.49， 
"Samsung Galaxy Cover" -> 8.95, 
"ipad COvVEr™. = 7..49 
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通过 使 用 姓名 列表 和 产品 名 称 到 价格 的 映射 ,我 们 将 创建 一 个 函数 ,从 这 些 数据 中 随机 选择 
产品 和 名 称 ， 生 成 确定 数量 的 购买 活动 : 


/xx 生成 随机 产品 活动 */ 
def generateProductEvents(n: Int) = { 
(二 蕊 O: TD) ya {TL "SS 
val (product, price) = 
products (random.nextInt (products.size)) 
val user = random.shuffle (names) .head 
(user, product, price) 





} 
最 后 , 创建 一 个 网 络 套 接 字 并 设置 消息 生成 器 来 监听 这 个 套 接 字 。 一旦 连接 成 功 ( 从 我 们 的 
消费 者 流 应 用 )， 消 息 生 成 器 将 会 以 每 秒 0~5 个 的 随机 频率 来 生成 随机 事件 : 
// 创建 网 络 生 成 器 


val listener = new ServerSocket (9999) 
println("Listening on port: 9999") 











while (true) { 
val socket = listener.accept() 
new Thread() { 
override def run = { 
println("Got client connected from: " + 
socket .getInetAddress) 
val out = new PrintWriter(socket.getOutputStream(), 
true) 


while (true) { 
Thread.sleep(1000) 
val num = random.nextInt (MaxEvents) 
val productEvents = generateProductEvents (num) 
productEvents.foreach{ event => 
out .write(event.productIterator.mkString(",") 
out .write("\n") 
} 
out .flush() 
printlin(s"Created Snum events...") 
} 
socket .close() 


} 


}.start() 
} 
} 
} 
这 个 消息 生成 器 的 例子 是 基于 Spark Streaming 中 PageViewGenerator 的 
例子 写 的 。 





正如 我 们 在 第 1 章 所 做 的 , 通过 切换 根 目录 到 scala-spark-streaming-app, 并 且 使 用 SBT 来 运 
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行 这 个 应 用 : 
> cd scala-spark-streaming-app 
> sbt 
[info] 


> 
使 用 run 命令 执行 这 个 应 用 : 
> run 


应 该 能 看 到 类 似 下 面 的 输出 : 





Multiple main classes detected, select one to run: 


[1] StreamingProducer 

[2] SimpleStreamingApP 

[3] StreamingAnalyticsApp 
[4] StreamingStateApp 

[5] StreamingModelProducer 
[6] SimpleStreamingModel 

[7] MonitoringStreamingMode1 


Enter number: 


选择 StreamingProducer 选项 。 应 用 程序 将 开始 运行 ， 你 可 以 看 到 下 面 的 输出 : 








[info] Running StreamingProducer 
Listening on port: 9999 


可 以 看 到 ， 生 成 器 正在 监听 9999 端口 ， 等 待 我 们 的 消费 者 应 用 连接 。 





11.3.2 创建 简单 的 流 处 理 程序 


下 面 创 建 第 一 个 流 处 理 程序 。 我 们 将 简单 地 连接 生成 器 并 打印 出 每 一 个 批 次 的 内 容 。 流 处 理 
代码 如 下 : 


/大 大 
* 用 Scala 写 的 一 个 简单 的 Spark Streaming 应 用 
*f 

object SimpleStreamingApp { 








def main(args: Array[String]l) { 


val ssc = new StreamingContext ("local{[2]", 
"First Streaming App", Seconds (10) ) 
val stream = ssc.socketTextStream("localhost", 9999) 





// 简单 地 打印 每 一 批 的 前 几 个 元 素 
// 批量 运行 
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stream.print() 
ssc.start() 
ssc.awaitTermination() 


下 

看 上 去 很 简单 , 这 主要 是 因为 Spark Streaming 已 经 帮 我 们 处 理 了 复杂 的 过 程 。 首先 初始 化 一 
个 StreamingContext 对 象 ( 一 个 和 SparkContext 类 似 的 流 处 理 对 象 设 定 和 之 前 
sparkContext 相似 的 配置 项 。 注 意 ， 我 们 需要 提供 批 处 理 的 时 间 间 隔 ， 这 里 设 为 10 秒 。 


然后 使 用 定义 好 的 流 数据 源 socketTextStream 创建 一 个 数据 流 ， 从 套 接 字 服 务 器 读 取 文 
本 并 创建 一 个 DStream[String] 对 象 。 之 后 在 DStream 上 调用 print 困 数 ， 打印 出 每 批 数 据 的 
前 几 个 元 素 。 

















人 在 DStream 上 调用 print 类 似 于 在 RDD 上 调用 take， 只 输出 前 几 个 元 素 。 





可 以 通过 SBT 运行 程序 。 打 开 第 二 个 终端 窗口 ， 让 生成 器 程序 运行 ， 然 后 运行 sbt: 
> sbt 


[info] 
> run 


然后 我 们 应 该 看 到 几 个 可 以 选择 的 选项 : 








Multiple main classes detected, select one to run: 


[1] StreamingProducer 

[2] SimpleSstreamingApp 

[3] StreamingAnalyticsApp 
[4] StreamingStateApp 

[5] StreamingModelProducer 
[6] SimpleStreamingModel 

[7] MonitoringstreamingModel 


运行 SimpleStreamingApp 的 主 类 。 你 应 该 看 到 流 计算 程序 开始 运行 ,打印 出 了 类 似 下 面 
的 结果 : 





14/11/15 21:02:23 INFO scheduler.ReceiverTracker: ReceiverTracker 


started 

14/11/15 21:02:23 INFO dstream.ForEachDStream: metadataCleanupDelay = 
-1 

14/11/15 21:02:23 INFO dstream.SocketInputDStream: 
metadataCleanupDelay = -1 

14/11/15 21:02:23 INFO dstream.SocketInputDStream: Slide time = 10000 
ms 


14/11/15 21:02:23 INFO dstream.SocketInputDStream: Storage level = 
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StorageLevel (false，false，false，false，1IL) 

14/11/15 21:02:23 INEO dstream.SocketInputDStream: Checkpoint 
interval = null 

14/11/15 21:02:23 INFO dstream.SocketInputDStream: Remember duration 
= 10000 ms 

14/11/15 21:02:23 INFO dstream.SocketInputDStream: Initialized and 
validated org.apache.spark.streaming.dstream.SocketInputDSstream@ff£f3436d 
14/11/15 21:02:23 INFO dstream.ForEachDStream: Slide time = 10000 ms 
14/11/15 21:02:23 INFO dstream.ForEachDStream: Storage level = 
StorageLevel (false, false, false, false, 1) 

14/11/15 21:02:23 INFO dstream.ForEachDStream: Checkpoint interval = 
null 

14/11/15 21:02:23 INFO dstream.ForEachDStream: Remember duration = 
10000 ms 

14/11/15 21:02:23 INFO dstream.ForEachDStream: Initialized and 
validated org.apache.spark.streaming.dstream.ForEachDStream@5al0b6e8 
14/11/15 21:02:23 INFO scheduler.ReceiverTracker: Starting 1 
receivers 

14/11/15 21:02:23 INFO spark.SparkContext: Starting job: runJob at 
ReceiverTracker.scala:275 








与 此 同时 ， 应 该 看 到 运行 生成 带 的 终端 窗口 显示 下 面 的 内 容 : 





Got client connected from: /127.0.0.1 
Created 2 events... 
Created 2 events... 
Created 3 events... 
Created 1 events... 
Created 5 events... 

















大 约 10 秒 钟 之 后 ， 这 也 是 我 们 批量 处 理 流 数据 的 时 间 间 隔 ，Spark Streaming 将 在 流 上 触发 
一 次 计算 ， 因 为 我 们 使 用 了 print 算 子 。 这 将 会 展示 出 这 批 数据 的 前 几 个 活动 ， 输 出 如 下 : 





14/11/15 21:02:30 INFO spark.SparkContext: Job finished: take at 
DStream.scala:608, took 0.05596 s 


Time: 1416078150000 ms 
Michael,Headphones,5.49 
Frank,Samsung Galaxy Cover,8.95 
Eric,Headphones,5.49 
Malinda,iPad Cover,7.49 
James,iPphone Cover,9.99 
James,Headphones,5.49 
Doug,iPhone Cover,9.99 
Juan,Headphones,5.49 
James,iPphone Cover,9.99 
Richard,iPad Cover,7.49 
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(人 你 可 能 会 看 到 不 同 的 结果 ， 因 为 生成 器 每 秒 钟 生成 活动 的 数量 是 随机 的 。 





可 以 按 Ctrl+C 结束 流 计 算 程序 的 运行 。 如 果 愿 意 ， 也 可 以 结束 消息 生成 器 ( 结束 之 后 ， 需 

















要 在 启动 下 一 个 流 计算 程序 之 前 再 次 重启 )。 








11.3.3” 流 式 分析 











下 面 , 我 们 创建 一 个 复杂 点 的 流 计算 程序 。 我们 在 第 1 章 已 经 对 产品 购买 数据 集 计 算 了 几 个 
统计 量 ， 包 括 总 购买 量 、 唯 一 用 户 数 、 总 收入 和 最 畅销 的 产品 〈 及 其 购买 总 数 和 总 收入 )。 


在 这 个 例子 中 , 我 们 将 在 购买 活动 流 之 上 计算 相同 的 指标 。 关键 的 不 同 在 于 这 些 统计 值 会 按 














照 每 个 批 次 计算 并 输出 。 
我 们 像 下 面 这 样 编写 流 计算 程序 : 








/** 
* 稍 复 杂 的 Streaming 应 用 ,计算 DStream 中 每 一 批 的 指标 并 打印 结果 
类 


object StreamingAnalyticsApp { 


def main(args: Array[String]) { 
val ssc = new StreamingContext ("local[2]", 
"First Streaming App", Seconds (10) ) 
val stream = ssc.socketTextStream("localhost", 9999) 


// 基于 原始 文本 元 素 生 成 活动 流 

val events = stream.map { record => 
val event = record.split(",") 
(event (0), event (1), event (2)) 


} 











首先 ， 我们 创建 了 和 之 前 完全 相同 的 streamingContext 和 套 接 字 流 。 接 下 来 在 原始 文本 





上 应 用 map 转换 函数 ， 文 本 中 的 每 一 条 记录 都 是 一 个 逗号 分 隔 的 字符 上 








局 ， 代表 购买 活动 。 map 


函数 分 隔 文 本 并 创建 一 个 “ (用户 , 产品, 价格)” 元 组 。 这 里 演示 了 如 何在 DStream 上 使 用 map， 


和 我 们 在 RDD 上 的 操作 相同 。 








之 后 , 使 用 foreachRDD 函数 来 对 流 上 的 每 个 RDD 应 用 任意 处 理 孔 数 ， 计 算 我 们 需要 的 指 





标 并 将 结果 打印 到 控制 台 : 


/大 


计算 并 输出 每 一 个 批 次 的 状态 。 因 为 每 个 批 次 都 会 生成 RDD， 所 以 在 DStream 上 调用 


forEachRDD， 应 用 第 1 章 使 用 过 的 普通 的 RDD 函数 
events.foreachRDD { (rdd, time) => 
val numPurchases = rdd.count() 
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val unidueUsers = rdd.map { case (user, _, _) => user 
}.distinct().count() 
val totalRevenue = rdd.map { case (_, _, price) => 


price.toDouble }.sum() 
val productsByPopularity = rdd 
.map { case (user, product, price) => (product, 1) } 
.reduceByKey(_ + _) 
.Collect () 
“SOrtBy (= 2) 
val mostPopular = productsByPopularity(0) 


val formatter = new SimpleDateFormat 
val dateStr = formatter.format (new Date(time.milliseconds)) 


println(s"== Batch start time: S$dateStr ==") 
println("Total purchases: " + numPurchases) 
println("Unique users: " + UniqueUsers) 
println("Total revenue: " + totalRevenue) 


println("Most popular product: %s with %d 
purchases".format (mostPopular._1, mostPopular._2)) 





} 


// 开始 执行 Spark 上 下 文 
SSC.Statt () 
ssc.awaitTermination () 


} 


这 里 foreachRDD 中 RDD 上 的 操作 算 子 和 第 1 童 使 用 的 完全 是 相同 的 代码 。 这 说 明了 可 以 
通过 操作 其 中 的 RDD 在 流 计算 中 应 用 任何 RDD 相关 的 处 理 ， 包 括 内 置 的 高 级 流 计算 操作 。 





> 


调用 sbt run 再 次 运行 流 计算 程序 并 选择 StreamingAnalyticsApp。 























还 记得 吧 ? 如 果 你 之 前 终止 了 程序 , 需要 重启 消息 生成 器 。 这 应 该 在 启动 流 
计算 程序 之 前 完成 。 


大 约 10 秒 钟 后 ， 你 应 该 能 看 到 如 下 输出 : 


14/11/15 21:27:30 INFO spark.SparkContext: Job finished: collect at 
Streaming.scala:125, took 0.071145 s 

== Batch start time: 2014/11/15 9:27 PM == 

Total purchases: 16 

Unique users: 10 

Total revenue: 123.72 

Most popular product: iPad Cover with 6 purchases 





可 以 使 用 Ctrl+C 再 次 终止 流 计算 程序 。 
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11.3.4 ”有 状态 的 流 计算 


作为 最 后 的 例子 ， 我 们 将 使 用 upaatestateByKey 函数 ， 应 用 有 状态 的 流 计 算 这 个 概念 ， 
计算 收入 和 每 个 用 户 购买 量 这 个 全 局 状态 ， 而 且 会 使 用 每 10 秒 的 批量 数据 更 新 一 次 。 我 们 的 


streamingStateApp 程序 如 下 : 








object StreamingStateApp { 
import org.apache.spark.streaming.StreamingContext._ 


首先 定义 一 个 updatestate 函数 来 基于 运行 状态 值 和 当前 批 次 的 新 数据 计算 新 状态 。 状 态 
在 这 种 情况 下 是 一 个 “ (产品 数量 , 收入 )” 元 组 ,针对 每 个 用 户 。 给 定 当 前 时 刻 的 当前 批 次 和 累 
积 状 态 的 “( 产 品 ， 收 入 ) ”对 的 集合 ， 计 算得 到 新 的 状态 。 


主意 , 我 们 将 把 当前 状态 的 值 处 理 为 option， 因为 它 可 能 是 空 的 (第 一 批 数据 ), 并 且 需 要 
> 这 将 通过 下 面 的 getorElse 来 实现 : 


























def updateState (prices: Segq[l (String, Double)], currentTotal: 
Option[(Int, Double)]) = { 
val currentRevenue = prices.map(_._2).sum 


val currentNumberPpurchases = prices.size 

val state = currentTotal.getOrElse((0, 0.0)) 
Some((currentNumberPurchases + state._1, currentRevenue + 
state._2)) 


def main(args: Array[String]) { 


val ssc = new StreamingContext ("local[2]", "First Streaming 
App", Seconds(10)) 

// 对 于 有 状态 的 操作 ， 需 要 设置 一 个 检查 点 

ssc.checkpoint ("/tmp/sparkstreaming/") 

val stream = ssc.socketTextStream("localhost", 9999) 


// 基于 原始 文本 元 素 生成 活动 流 
Val events = stream.map { record => 
val event = record.split(",") 
(event (0), event (1), event (2) .toDouble) 
} 
val users = events.map{ case (user, product, price) => (user, 
(PEOdUCC, ELC)) 
val revenuePerUser = users.updateStateByKey (updateState) 
revenuePerUser.print() 


// 启动 上 下 文 
ssc.start() 
ssc.awaitTermination() 


} 
} 


在 使 用 和 之 前 例子 中 相同 的 字符 串 切 分 转换 后 ， 我 们 在 DStream 上 调用 了 updatestate 
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ByKey， 传 和 人 定义 好 的 updatestate 子 数 。 然 后 把 结果 打印 到 控制 台 。 


使 用 sbt run 并 选择 [4] StreamingstateApp 来 启动 流 计 算 的 例子 (如 果 有 必要 ， 也 重 
启 消 息 生 成 器 程序 )。 


大 约 10 秒 钟 后， 将 开始 看 到 第 一 个 状态 输出 集合 。 青 等 待 10 秒 钟 会 看 到 下 一 个 输出 集合 ， 














Time: 1416080440000 ms 
(Janet, (2,10.98)) 

(Frank, (1,5.49)) 

(James, (2,12.98)) 

(Malinda, (1,9.99)) 

(Elaine, (3,29.97)) 

(Gary, (2,12.98)) 

(Miguel, (3,20.47)) 

(Saul, (1,5.49)) 

(Manuela, (2,18.939999999999998)) 
(Eric, (2,18.939999999999998)) 


Time: 1416080441000 ms 
(Janet, (6,34.94)) 

(Juan, (4,33.92)) 

(Frank, (2,14.44)) 

(James, (7,48.93000000000001)) 
(Malinda, (1,9.99)) 

(Elaine, (7,61.89)) 

(Gary, (4,28.46)) 

(Michael, (1,8.95)) 

(Richard, (2,16.439999999999998)) 
(Miguel, (5,35.95)) 


可 以 看 到 每 个 用 户 的 购买 数量 和 总 收入 按 批 相 加 了 。 
伸 现在 ， 看 看 是 否 可 以 应 用 这 个 例子 来 使 用 Spark Streaming 的 wingdow 函数 。 





例如 ， 可 以 对 每 个 用 户 以 30 秒 作为 滑动 窗口 计算 上 一 分 钟 相似 的 统计 值 。 


11.4 使 用 Spark Streaming 进行 在 线 学 习 


如 前 所 示 , 使 用 Spark Streaming 与 我 们 操作 RDD 的 方式 很 接近 , 处 理 数据 流 也 变 得 简单 了 。 
使 用 Spark 的 流 处 理 元 素 结合 MLlib 的 基于 SGD 的 在 线 学 习 能 力 ， 我 们 可 以 创建 实时 的 机 器 学 
习 模 型 ， 并 在 新 数据 到 达 时 实时 更 新 学 习 模型 。 
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11.4.1 流 回 归 


Spark 在 StreamingLinearAlgorithm 类 中 提供 了 内 建 的 流 式 机 器 学 习 模 型 。 当 前 只 实现 
了 线性 回归 (streamingLinearRegressionWithSGD )， 未 来 的 版 本 将 包含 分 类 。 


流 回 归 模 型 提供 了 两 个 方法 。 


D trainon: 这 个 方法 接收 Dstream[LabeledqPoint] 作 为 参数 ， 它 告诉 模型 在 输入 的 
DStream 中 的 每 一 个 批 次 上 训练 模型 。 可 0 

口 bredqicton: 这 个 方法 接收 DSstream[LabeledPoint] 作 为 参数 ， 它 告诉 模型 对 输入 的 
DStream 做 出 预测 ， 返 回 一 个 新 的 DStream[Double]， 其 让 包 售 模 惠 的 ， 预测 结果 。 


流 回 归 模型 在 后 台 使 用 foreachRDD 和 map 来 完成 上 述 操作 。 同 时 , 该 模型 也 在 每 个 批 次 后 
更 新 模型 变量 , 并 暴露 出 最 近 训 练 的 模型 ， 让 我 们 得 以 在 其 他 应 用 中 使 用 这 个 模型 或 者 把 模型 保 
存 到 外 部 。 


和 标准 的 批量 回归 一 样 , 流 回归 模型 的 步 长 和 迭代 次 数 可 以 通过 参数 配置 , 使 用 的 模型 类 
相同 。 我 们 同样 可 以 设置 初始 的 模型 权重 向 量 。 


第 一 次 训练 模型 时 , 可 以 设置 初始 化 权重 为 零 向 量 或 者 随机 的 向 量 ,或 者 从 一 个 离线 批 处 理 
的 结果 加 载 最 近 的 模型 。 可 以 周期 性 地 把 模型 保存 到 外 部 系统 , 并且 使 用 最 近 的 模型 状态 作为 起 
点 (例如 ， 在 一 个 节点 或 者 应 用 故障 的 情况 下 重启 )。 






















































































11.4.2 一 个 简单 的 流 回 归程 序 


为 了 演示 流 回 归 的 使 用 , 我 们 将 创建 一 个 和 之 前 一 个 示例 类 似 的 例子 , 之 前 的 示例 使 用 的 是 
模拟 数据 。 我 们 将 写 一 个 生成 顺 程 序 , 根据 给 定 固定 的 已 知 权重 向 量 来 生成 随机 的 特征 向 量 和 目 
标 变 量 ， 并 把 训练 样本 写 和 网络 流 。 


我 们 的 消费 者 应 用 将 会 运行 流 回 归 模型 , 训练 , 然后 测试 模拟 数据 流 。 第 一 个 示例 消费 者 将 
简单 地 将 它 的 预测 结果 打印 到 控制 台 
1. 创建 流 数据 生成 器 


数据 生成 需 的 运行 方式 与 活动 生成 需 类 似 。 记 得 第 $ 章 介绍 过 ,线性 模型 是 一 个 权重 向 量 mw 
和 一 个 特征 向 量 x 的 线性 组 合 (或 者 是 向 量 的 点 积 wx )。 | 固定 的 已 知 的 权 
重 向 量 和 随机 生成 的 特征 向 量 产 生 合 成 的 数据 。 这 个 数据 完全 符合 线 性 回归 模型 公式 ,所 以 预计 
我 们 的 回归 模型 将 很 容易 学 习 到 正确 的 权重 向 量 。 


首先 ， 设 定 每 秒 处 理 的 最 大 活动 数目 (如 100 ) 和 特征 向 量 中 的 特征 数量 (也 是 100 ): 
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/** 
* 随机 线性 回归 数据 的 生成 器 
Sy 


object StreamingModelProducer { 
import breeze.1inalg. 


def main(args: Array[String]) { 


// 每 秒 处 理 的 最 大 活动 数目 
val MaxEvents = 100 
val NumFeatures = 100 


val random = new Random() 
generateRandomArray 了 困 数 创建 一 个 大 小 确定 的 数组 ， 其 中 的 元 素 通过 正 态 分 布 随机 生 
成 。 我 们 将 使 用 这 个 函数 初步 生成 已 知 的 权重 向 量 mw， 它 在 生成 器 的 整个 生命 周期 中 固定 不 变 。 
我 们 还 将 创建 一 个 随机 的 截 距 , 它 也 将 被 固定 。 权 重 向 量 和 截 距 将 会 用 来 生成 流 中 的 每 一 个 数据 : 








/** 生成 服从 正 态 分 布 的 稠密 向 量 的 函数 */ 
def generateRandomArray (n: Int) = Array.tabulate(n)(_ 
random.nextGaussian()) 


=> 


// 生成 一 个 固定 的 随机 模型 权重 向 量 
val w = new DenseVector (generateRandomArray (NumFeatures)) 
val intercept = random.nextGaussian() * 10 


我 们 也 需要 一 个 函数 来 生成 确定 数量 的 随机 数据 点 。 每 一 个 活动 包含 一 个 随机 的 特征 向 量 以 
及 目标 值 (通过 计算 已 知 向 量 及 随机 特征 的 点 积 并 加 上 截 距 后 得 到 ): 























/xx 生成 一 些 随 机 的 产品 活动 */ 
def generateNoisyData(n: Int) = { 


(1 to ny) smnap. { 1 3 
val x = new DenseVector (generateRandomArray (NumFeatures)) 


val y: Double = w.dot (x) 
val noisy = y + intercept 
(noisy, XxX) 


} 
最 后 , 使 用 和 之 前 生成 器 类 似 的 代码 来 初始 化 一 个 网 络 连接 , 并 以 文本 形式 每 秒 发 送 随机 数 
量 〈 在 0~100 范围 内 ) 的 数据 点 : 
// 创建 网 络 生成 器 


val listener = new ServerSocket (9999 ) 
println("Listening on port: 9999") 








while (true) { 
val socket = listener.accept() 
new Thread() { 
override def run = { 
println("Got client connected from: 
new PrintWriter (socket .getOutputStream(), true) 


" + Socket .getInetAddress) 


val out = 
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while (true) { 
Thread.sleep(1000) 
val num = random.nextInt (MaxEvents) 
val data = generateNoisyData (num) 
data.foreach { case (ly, x) => 
val xStr = x.data.mkSstring(",") 
val eventSstr = s"S$Sy\tS$xSstr" 
out .write (eventstr) 
out .write("\n") 
} 
oUtstLusit) 
printlin(s"Created Snum events...") 
} 
socket .close() 
} 
} .Statt () 





} 


你 可 以 通过 使 用 sbt run 来 说 启动 生成 器 ， 然 后 选择 执行 StreamingModelProducer 主 
方法 。 这 将 导致 下 面 的 输出 ， 这 表明 生成 器 程序 在 等 待 我 们 的 流 回 归 应 用 的 连接 : 


[info] Running StreamingModelProducer 
Listening on port: 9999 


2. 创建 流 回 归 模型 
下 一 步 ， 我 们 将 创建 流 回 归 模型 程序 。 基 本 的 设置 与 之 前 的 流 分 析 例 子 相同 : 




















/** 
* 一 个 简单 的 线性 回归 计算 出 每 个 批 次 的 预测 值 
*/ 


object SimpleStreamingModel { 
def main(args: Array[String]) { 


val ssc = new StreamingContext ("local[2]", "First Streaming App", Seconds(10)) 
val stream = ssc.socketTextStream("localhost", 9999) 


这 里 将 创建 大 量 的 特征 来 匹配 输入 数据 流 中 记录 的 特征 。 我 们 将 创建 一 个 零 向 量 来 作为 流 回 
归 模 型 的 初始 权 值 向 量 。 最 后 ， 选 择 迭 代 次 数 和 步 长 : 








val NumFeatures = 100 

val ZeroVector = DenseVector .zeros [Double]l (NumFeatures) 

val model = new StreamingLinearRegressionWithSsSGD() 
.SetInitialWweights (Vectors.dense (zeroVector.data)) 
.SetNumIterations (1) 
.SetStepSize(0.01) 


然后 ， 再 次 使 用 map 函数 把 DStream 中 字符 串 表 示 的 每 个 记录 转换 成 LapelPoint 实例 ， 
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其 中 包含 目标 值 和 特征 向 量 : 


// 创建 一 个 标签 点 的 流 
val labeledStream = stream.map { event => 
val split = event.split("\t") 
val y = split(0) .toDouble 
val features = split(1).split(",").map(_.toDouble) 
LabeledPoint (label = y, features = Vectors.dense (features)) 


} 


最 后 调用 模型 在 转换 后 的 DStream 上 做 训练 和 测试 , 并 输出 DStream 每 一 批 数据 前 几 个 元 素 
的 预测 值 : 
// 在 流 上 训练 和 测试 模型 ， 并 打印 预测 结果 作为 展示 


model.trainOon (labeledStream) 
model .predictOn(labeledStream) .print() 





ssc.start () 
ssc.awaitTermination () 


因为 使 用 了 与 批 处 理 中 MLlib 一 样 的 模型 类 处 理 流 ， 所 以 我 们 可 以 选择 是 否 
在 每 一 个 批 次 的 训练 数据 ( 就 是 多 个 LabeledPoint 实例 构成 的 RDD ) 上 执行 多 
次 迁 代 。 

这 里 , 我 们 将 设置 迭代 次 数 为 1 来 单纯 模拟 在 线 学 习 。 实 践 中 ,你 可 以 设置 

个 更 多 的 迭代 次 数 , 但 每 个 批 次 的 训练 时 间 将 因此 增加 。 如 果 每 个 批 次 的 训练 时 间 

大 大 高 于 训练 间隔 ， 流 模 型 将 会 滞后 于 数据 流 的 速度 。 

可 以 通过 减少 迭代 次 数 、 增 加 批 处 理 间 隔 , 或 者 增加 Spark 工作 节点 以 增加 
流 计算 程序 的 并 行 度 来 解决 这 个 问题 。 








现在 ,准备 在 第 二 个 终端 窗口 中 使 用 sbt run 运行 SimpleStreamingModel， 正 如 运行 
生成 器 一 样 ( 记 住 为 SBT 选择 正确 的 主 方法 来 执行 )。 一 旦 流 处 理 程序 开始 运行 ， 就 应 该 在 生成 
器 控制 台 看 到 下 面 的 输出 : 


Got client connected from: /127.0.0.1 





Created 10 events... 
Created 83 events... 
Created 75 events... 





大 约 10 秒 钟 后 ， 应 该 开始 看 到 模型 预测 结果 出 现在 流 应 用 程序 的 控制 台 上 : 











14/11/16 14:54:00 INFO StreamingLinearRegressionWithSGD: Model 
updated at time 1416142440000 ms 
14/11/16 14:54:00 INFO StreamingLinearRegressionWithSsGD: Current 
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model: weights, [0.05160959387864821,0.05122747155689144,- 
0.17224086785756998,0.05822993392274008,0.07848094246845688,- 
0.1298315806501979,0.006059323642394124, 


14/11/16 14:54:00 INFO JobScheduler: Finished job streaming job 


1416142440000 ms.0 from job set of time 1416142440000 ms 
14/11/16 14:54:00 INFO JobScheduler: 
1416142440000 ms.1 from job set of time 1416142440000 ms 
14/11/16 14:54:00 INFO SparkContext: Starting job: take at 
DStream.scala:608 

14/11/16 14:54:00 INFO DAGScheduler: Got job 3 (take at 
DStream.scala:608) with 1 output partitions (allowLocal=true) 


Starting job streaming job 


14/11/16 14:54:00 INFO DAGScheduler: Final stage: Stage 3(take at 
DStream.scala:608) 

14/11/16 14:54:00 INFO DAGScheduler: Parents of final stage: List() 
14/11/16 14:54:00 INFO DAGScheduler: Missing parents: List() 
14/11/16 14:54:00 INFO DAGScheduler: Computing the requested 
partition locally 

14/11/16 14:54:00 INFO SparkContext: Job finished: take at 


DStream.scala:608, took 0.014064 s 


1416142440000 ms 
-2.0851430248312526 
4.609405228401022 
2.817934589675725 
3.3526557917118813 
4.624236379848475 
-2.3509098272485156 
-0.7228551577759544 
2.914231548990703 
0.896926579927631 
1.1968162940541283 


Time: 

















WE 


! 你 已 经 创建 了 你 第 一 个 流 式 在 线 学 习 模 型 


你 可 以 在 每 个 终端 窗口 按 Ctrl + C 关 掉 流 应 用 (或 者 关 掉 生成 器 )。 


人 
恭喜 





流 


11.4.3” 流 式 K- 均 值 





MLlib 还 包含 一 个 流 处 理 版 本 的 K- 均 值 聚 类 , 名 为 StreamingkMeans。 这 是 小 批量 K- 均 值 
算法 扩展 后 的 模型 。 每 一 批 数 据 到 达 后 , 模型 都 会 基于 之 前 批 次 计算 得 到 的 聚 类 中 心 和 当前 批 次 











计算 得 到 的 聚 类 中 心 来 更 新 。 





StreamingKMeans 支持 一 个 遗忘 度 参 数 alpha (使 用 setDecayFac 


tor 方法 来 设置 ) 它 





控制 模型 对 新 数据 赋 权 值 的 激进 程度 。alpha 为 0 时 意味 着 模型 仅 会 使 用 新 数据 ， 而 alpha 为 








1 时 意味 着 要 使 用 从 应 用 开始 后 的 所 有 数据 。 
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这 里 不 会 介绍 更 多 关于 流 式 K- 均 值 的 内 容 (Spark 文档 http://spark.apache.org/docs/latest/ 
mllib-clustering.html#streamingclustering 包含 了 更 多 细节 和 例子 )。 然 而 ， 除 了 可 以 尝试 使 用 之 前 
的 流 回 归 数 据 生 成 器 为 StreamingKMeans 模型 生成 输入 数据 ,你 还 可 以 采用 流 回 归 应 用 来 使 用 


StreamingKMeanso 
要 创建 聚 类 数据 生成 器 ， 可 以 先 选 择 一 个 类 艇 数目， 然后 通过 下 面 的 步骤 生成 数据 点 。 
口 随机 选择 一 个 类 复 下 标 。 
口 对 每 个 类 得 使 用 特定 的 正 态 分 布 参数 后 成 一 个 随机 向 量 。 也 就 是 说 K 个 聚 类 的 每 个 类 将 
会 有 一 个 均值 和 方差 参数 ,使 用 与 之 前 generateRandomArray 辑 数 类 似 的 方法 生成 随 
机 的 向 量 。 
这 样 , 属于 相同 类 艇 的 点 都 服从 相同 的 分 布 , 所 以 我 们 的 流 式 聚 类 模型 一 段 时 间 后 应 该 能 得 
到 正确 的 类 簇 中 心 。 




















11.5 “在 线 模型 评估 


机 器 学 习 和 Spark Streaming 组 合 起 来 有 很 多 潜在 的 应 用 场景 ,包括 保证 模型 和 模型 集合 在 新 
的 训练 数据 上 同步 更 新 ， 因 而 使 模型 能 很 快 适应 上 下 文 场景 的 改变 。 

另 一 个 有 用 的 实例 是 以 在 线 方式 跟踪 和 比较 多 个 模型 的 性 能 ， 甚 至 可 能 实时 执行 模型 选择 ， 
从 而 总 是 用 性 能 最 好 的 模型 来 生成 在 线 数据 的 预测 结果 。 

还 可 以 用 来 对 模型 做 实时 “A/B 测试 ", 或 者 和 前 沿 的 在 线 选 择 和 学 习 技术 组 合 ， 例 如 贝 叶 
斯 更 新 方法 和 Bandit 算法。 也 可 以 用 来 实时 监控 模型 的 性 能 , 如 果 因 为 某 些 原因 性 能 降低 也 可 以 
及 时 响应 和 调整 。 

本 节 简 单 地 扩展 一 下 流 回 归 的 例子 。 在 这 个 例子 中 ， 随 着 越 来 越 多 的 数据 进入 输入 流 , 我 们 
将 比较 两 个 具有 不 同 参数 的 模型 的 错误 率 的 变化 。 


















































使 用 Spark Streaming 比较 模型 性 能 


正如 我 们 以 前 在 生成 器 应 用 中 使 用 已 知 权 重 向 量 和 鹤 距 来 生成 训练 数据 , 我 们 希望 最 后 模型 
能 学 到 这 些 权重 向 量 〈 这 个 例子 中 我 们 不 会 加 入 随机 噪声 )。 

因此 , 随 着 处 理 的 数据 越 来 越 多 , 模型 错误 率 会 越 来 越 低 。 我 们 也 能 使 用 标准 的 回归 错误 指 
标 来 比较 多 个 模型 的 性 能 。 

在 这 个 例子 中 ， 我 们 将 使 用 不 同 的 学 习 率 来 创建 两 个 模型 ， 并 在 相同 的 数据 流 上 进行 训练 。 
我 们 将 对 每 个 模型 做 预测 ， 并 对 每 个 批 次 计算 均 方 误差 (MSE ) 和 根 均 方 误差 (RMSE ) 指标 。 
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新 的 监控 流 模 型 代码 如 下 : 





/** 
* 一 个 流 式 回 归 模 型 ， 用 来 比较 这 两 个 模型 的 性 能 ， 并 输出 每 个 批 次 计算 后 的 性 能 统计 
E86 


object MonitoringStreamingModel { 
import org.apache.spark.SparkContext._ 


def main(args: Array[String]) { 


val ssc = new StreamingContext ("local[2]", "First Streaming 
App", Seconds(10)) 
val stream = ssc.socketTextStream("localhost", 9999) 


val NumFeatures = 100 

val ZeroVector = DenseVector .zeros [Double]l (NumFeatures) 

val modell = new StreamingLinearRegressionWithSsSGD() 
.SetInitialWeights (Vectors.dense (zeroVector.data)) 
.SetNumIterations(1) 
.SetStepSize(0.01) 


val model2 = new StreamingLinearRegressionWithSsSGD() 
.SetInitialWweights (Vectors.dense (zeroVector.data)) 
.SetNumIterations(1) 
.SetStepSize(1.0) 





// 创建 一 个 标签 点 的 流 
val labeledStream = stream.map { event => 
val split = event.split("\t") 
val y = split(0).toDouble 
val features = split(1).split(",").map(_.toDouble) 
LabeledPoint (label = y, features = Vectors.dense (features)) 


} 
注意 ， 前 面 大 部 分 的 安装 代码 和 我 们 的 简单 流 模 型 例子 一 样 。 不 同 的 是 ， 我 们 创建 了 两 个 


StreamingLinearRegressionwithSsGD 实例 : 一 个 学 习 率 是 0.01 ， 另 一 个 学 习 率 是 1.0。 


接 下 来 ， 我 们 将 在 输入 流 上 训练 每 一 个 模型 ， 并 使 用 Spark Streaming 的 transform 函数 ， 
为 此 创建 一 个 新 的 包含 每 个 模型 错误 率 的 DStream: 


// 在 同一 个 流 上 训练 这 两 个 模型 
modell.trainOon (labeledStream) 
model2.trainOon (labeledStream) 
// 使 用 转换 算 子 创建 包含 模型 错误 率 的 流 
val predsAndTrue = labeledStream.transform { rdd => 
val latest1 = modell.latestModel () 
val latest2 = model2.latestModel () 
rdd.map { point => 
val predl1 = latestl1.predict (point.features) 
val pred2 = latest2.predict (point.features) 
(predl - point.label, pred2 - point.label) 
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最 后 ， 对 每 个 模型 使 用 foreachRDD 来 计算 MSE 和 RMSE 指标 ， 并 将 结果 输出 到 控制 台 : 


// 对 于 每 个 模型 的 每 个 批 次 ， 输 出 MSE 和 RMSE 统计 值 
predsAndTrue.foreachRDD { (rdd, time) => 


val msel = rdd.map { case (errl, err2) => errl * errl 
} .mean() 

val rmsel = math.sqrt (msel) 

val mse2 = rdd.map { case (errl, err2) => err2 * err2 
} .mean() 

val rmse2 = math.sqrt (mse2) 

println( 

Snnn 





""".stripMargin) 
println(s"MSE current batch: Model 1: $msel; Model 2: 
Smse2") 
println(s"RMSE current batch: Model 1: S$rmsel; Model 2: 
srmse2") 
DEENntl( Vs NN) 


} 


SSC.Statt () 
SSsc.awaitTermination() 


} 
} 


如 果 你 之 前 关 掉 了 生成 器 ， 执行 sbt run 并 选择 StreamingModelProducer 重新 启 由 动 。 生 
成 器 再 次 运行 后 ,在 第 二 个 终端 窗口 执行 sbt run 并 有 日 选择 主 类 为 MonitoringstreamingModel。 


你 将 看 到 流 处 理 程序 启动 ， 约 10 秒 后 第 一 批 数 据 处 理 完毕 ， 输 出 如 下 : 

















14/11/16 14:56:11 INFO SparkContext: Job finished: mean at 
StreamingModel .scala:159, took 0.09122 s 


Time: 1416142570000 ms 


MSE current batch: Model 1: 97.9475827857361; Model 2: 
97.9475827857361 

RMSE current batch: Model 1: 9.896847113385965; Model 2: 
9.896847113385965 








因为 两 个 模型 都 从 从 同样 的 初始 化 权重 向 量 开 始 , 所 以 我 们 看 到 它们 对 第 一 批 数 据 做 了 完全 
相同 的 预测 ， 即 错误 率 相同 。 


如 果 让 程序 运行 几 分 钟 ,最 后 应 该 看 到 其 中 一 个 模型 开始 收敛 ,错误 率 越 来 越 低 ， 而 另 一 个 
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模型 因为 学 习 率 过 高 而 越 来 越发 散 。 


14/11/16 14:57:30 INFO SparkContext: Job finished: mean at 


StreamingModel .scala 


:159, took 0.069175 s 


Time: 1416142650000 ms 


MSE current batch: M 
10318.213926882852 
RMSE current batch: 
101.57860959317593 


odel 1: 75.54543031658632; Model 2: 


Model 1: 8.691687426304878; Model 2: 





如 有 果 让 程序 运行 更 长 时 间 ， 应 该 会 看 胖 


tt 


第 一 个 模型 的 错误 率 变 得 很 小 : 





14/11/16 17:27:00 INFO SparkContext: Job finished: mean at 


StreamingModel .scala 


Time: 1416151620000 


:159, took 0.037856 s 


ms 


MSE current batch: Model 1: 6.551475362521364; Model 2: 


1.057088005456417E26 
RMSE current batch: 
1.0281478519436867E1 


Model 1: 2.559584998104451; Model 2: 
3 


因为 数据 是 随机 生成 的 , 所 以 你 看 到 的 结果 可 能 不 一 样 , 但 总 体 趋 势 应 该 一 


致 : 第 一 批 时 


11.6 ”结构 化 流 


， 模 型 的 错误 率 相 同 ， 然 后 第 一 个 模型 的 错误 率 越 来 越 小 。 

















Spark 2.0 开始 支持 结构 化 流 ( Structured Streaming )。 该 方式 下 应 用 的 最 终 输出 等 同 于 在 现 有 





基础 上 执行 一 个 新 的 批 处 到 














LE 得 到 的 结果 。 结构 化 流 对 执行 引擎 内 和 与 外 部 系统 交互 提供 一 致 怕 





可 靠 性 支持 。 结 构 化 流 是 一 个 简单 的 数据 框架 和 数据 集 API。 




















E 和 


用 户 提交 要 进行 的 查询 ， 以 及 输入 和 输出 路 径 。 然 后 系统 增 量 执行 该 查询 ， 同 时 保持 足够 的 


状态 来 从 系统 故障 中 恢复 ， 


结构 化 流 则 在 以 Spark 





并 确保 结果 在 外 部 存储 上 一 致 性 ， 等 等 。 


Streaming 上 最 高 效 的 那些 特性 为 基础 , 提供 一 个 创建 实时 应 用 的 更 为 
简单 的 模型 。 但 在 Spark 2.0 中 ， 结 构 化 流 处 于 alpha 阶段 。 
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11.7 “小 结 

在 这 一 章 中 , 我 们 讨论 了 在 线 机 需 学 习 和 流 数据 分 析 的 知识 点 。 然 后 介绍 了 Spark Streaming 
库 和 API， 使 用 和 RDD 相似 的 函数 进行 了 连续 的 数据 流 处 理 ， 还 实现 了 流 分 析 应 用 的 一 个 例子 
并 演示 了 它 的 功能 。 

最 后 , 我 们 在 流 式 应 用 中 使 用 了 MLlib 的 流 回 归 模 型 , 在 输入 特征 向 量 流 上 计算 并 比较 了 模 
型 的 性 能 。 











Spark ML Pipeline AP| 














本 章 将 会 讲解 Spark ML Pipeline 的 基础 知识 ， 及 其 在 多 种 场景 下 的 应 用 。Pipeline ( 管道 ) 
由 多 个 组 件 构成 。 它 利用 Spark 平 台 和 机 器 学 习 来 提供 构建 大 型 学 习 系统 所 需 的 关键 特性 ， 从 而 
简化 构建 过 程 。 

















12.1 ”Pipeline 简介 

Pipeline API 的 灵感 来 自 scikit-learn， 自 Spark 1.2 版 引入 ， 旨 在 简化 机 器 学 习 流 程 的 创建 、 
调 优 和 检视 。 

基于 DataFrame，ML Pipeline 提供 了 一 组 高 层 API， 以 帮助 用 户 创 建 和 调 优 机 器 学 习 流 程 。 
多 个 Spark 机 器 学 习 算 法 可 以 整合 到 单个 流程 中 。 

ML Pipeline 通常 由 一 系列 的 数据 预 处 理 、 特 征 提取 、 模 型 拟 合 和 验证 阶段 构成 。 

以 文本 分 类 为 例 ,， 文 档 要 经 过 预 处 理 阶 段 ， 比 如 分 词 、 分 段 和 清洗 、 提 取 特 征 向 量 ， 以 及 用 
交叉 验证 来 训练 分 类 模型 。 算 法 和 涉及 预 处 理 的 多 个 步骤 可 通过 Pipeline 衔接 起 来 。Pipeline 通 
常 基 于 机 器 学 习 库 之 上 ， 协 调 策划 整个 工作 流程 。 




















12.1.1 DataFrame 


Spark Pipeline 系列 阶段 构成 ， 其 中 每 个 阶段 对 应 一 个 转换 器 ( transformer ) 或 一 个 评估 
器 (estimator )。 各 个 阶段 依次 运行 ， 输 入 DataFrame 随 各 阶段 的 进行 而 有 序 转换 。 


DataFrame 对 象 是 贯穿 整个 Pipeline 的 基本 数据 结构 或 张 量 (tensor )。DataFrame 指 代 一 个 按 
行 数据 集 ， 并 支持 多 种 数据 格式 ， 比 如 数值 型 、 字 符 串 、 二 进 制 数 、 布 尔 型 以 及 日 期 等 格式 。 





























12.1.2 ”Pipeline 组 件 


一 个 ML Pipeline 或 ML 工作 流程 由 一 系列 则 在 让 模型 拟 合 给 定 输入 数据 集 的 转换 器 和 评估 
顺 构 成 。 
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12.1.3 ”转换 器 


转换 器 是 一 种 抽象 ， 包 括 特征 转换 融和 学 习 模 型 。 它 实现 了 transform() 函数 ,来 将 一 个 
DataFrame 转换 成 另 一 个 DataFrame。 


特征 转换 器 以 一 个 DataFrame 对 象 为 输入 , 读 取 其 文本 内 容 ， 映射 为 一 个 新 的 列 ， 最 后 输出 
一 个 新 的 DataFrame。 

学 习 模 型 以 一 个 DataFrame 对 象 为 输入 , 读 取 包含 特征 向 量 的 列 ， 对 每 一 个 特征 向 量 预测 其 
标签 ， 最 后 输出 一 个 新 的 带 预测 标签 的 DataFrame 对 象 。 

自 定 义 一 种 转换 需 需 遵循 如 下 步骤 。 


(1) 实现 transform() 图 数 。 
(2) 指定 inputcol 和 outputCol。 
(3) 以 DataFrame 对 象 为 输入 ， 并 返回 该 类 对 象 。 









































简 而 言 之 , transformer 是 一 个 DataFrame 到 另 一 个 的 映射 , 即 DataFrame=[transform]=> 


DataFrameo 


12.1.4 ”评估 器 
评估 器 是 对 学 习 算法 的 抽象 ， 该 算法 在 数据 集 上 拟 合 模型 。 


评估 器 对 象 需要 实现 fit () 国 数 ， 该 函数 以 一 个 DataFrame 对 象 为 输入 ， 生 成 一 个 模型 。 
LogisticRegression 便 是 这 样 的 一 种 学 习 算 法 。 


简 而 言 之 ,评估 右 实 现 从 DataFrame 到 模型 的 映射 : DataFrame=[fit]=>Model。 


在 如 下 例子 中 ，PipelineComponentExample 引入 了 转换 器 和 评估 器 的 概念 : 











import org.apache.spark.ml.classification.LogisticRegression 
import org.apache.spark.ml.linalg.{Vector, Vectors} 

import org.apache.spark.m]l .param.ParamMap 

import org.apache.spark.sql.Row 

import org.utils.StandaloneSpark 


object PipelineComponentExample { 


def main(args: Arrayl[lString]): Unit = { 
val spark = StandaloneSpark.getSparkInstance!() 


// 生成 一 个 (label，features) 元 组 的 列表 ， 

// 以 之 为 输入 训练 数据 

val training = spark.createDataFrame (Sed ( 
(1.0, Vectors.dense(0.0, 1.1, 0.1)), 
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(0.0, Vectors.dense(2.0, 1.0 
(0.0, Vectors.dense(2.0, 1.3, 1.0)), 
(1.0, Vectors.dense(0.0, 1.2 

) ) .toDF ("label", "features") 


// 创建 一 个 LogisticRegression (LR) 实例 ， 

// 它 是 一 个 评估 器 

val lr = new LogisticRegression() 

// 打印 出 参数 、 文 档 和 任意 默认 值 

println("LogisticRegression parameters:\n" + lr.explainparams() + "\n") 


// 使 用 setter 函数 来 配置 参数 
lr.setMaxIter (10) 
.SetRegParam(0.01) 


// 用 1r 中 保存 的 参数 来 训练 一 个 LogisticRegression 模型 

val modell = lr.fit (training) 

// modell 是 一 个 Model 类 对 象 ， 即 由 一 个 评估 器 生成 的 转换 器 对 象 ， 

// 我 们 可 以 列 出 在 fit () 过 程 中 查看 所 使 用 的 参数 

// 下 面 会 以 (name:value) 对 格式 打印 出 参数 ， 其 中 name 是 该 LR 实例 的 唯一 标识 
println("Model 1 was fit using parameters: " + modell.parent .extractParamMap) 


// 另外 也 可 用 ParaMap 对 象 来 指定 各 参数 ， 它 支持 多 种 方法 来 指定 参数 

val paramMap = ParamMap (lr.maxIter -> 20) 
.put (lr.maxIter，30) // 指定 一 个 参数 。 这 徐 盖 了 原来 的 TmaxIter 
.put (lr.regParam -> 0.1，1lr.threshold -> 0.55) // 指定 多 个 参数 


// ParamMaps 对 象 可 以 合并 

val paramMap2 = ParamMap (lr.probabilityCol -> "myProbability") 
// 更 改 输出 列 的 列 名 

val paramMapCombined = paramMap ++ paramMap2 


// 使 用 上 述 合并 后 的 各 参数 来 学 习 一 个 新 的 模型 

// paramMapCombined 会 覆盖 之 前 经 If .set 函数 所 设置 的 所 有 参数 

val model2 = lr.fit(training, paramMapCombined) 

println("Model 2 was fit using parameters: " + model2 .parent .extractParamMap) 


// 准备 测试 数据 

val test = spark.createDatarFrame (Seqal 
(1.0, Vectors.dense(-1.0, 1.5, 1.3)), 
(0.0, Vectors.dense(3.0, 2.0, -0.1)), 
(1.0, Vectors.dense(0.0, 2.2, -1.5)) 

) ) .toDF ("label", "features") 


// 用 Transformer.transform() 有 函数 来 在 测试 数据 集 上 做 预测 
// LogisticRegression.transform 将 只 会 使 用 features 这 一 列 
// 注意 model2 .transform() 输 出 的 列 的 名 称 为 myProbability， 而 非 
// 'pProbability'。 这 是 因为 之 前 重 命名 了 lr.probabilityCol 
model2.transform(test) 
.Select ("features", "label", "myProbability", "prediction") 
.Collect () 
.foreach { 
case Row (features: Vector, label: Double, prob: Vector, prediction: Double) => 
println(s" ($features, S$label) -> prob=$prob, prediction=$prediction") 
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其 输出 如 下 : 


Model 2 was fit using parameters: { 

logreg 158888baeffa-elasticNetParam: 0.0, 

logreg 158888baeffa-featuresCol: features, 

logreg 158888baeffa-fitIntercept: true, 

logreg 158888baeffa-labelCol: label, 

logreg 158888baeffa-maxIter: 30, 

logreg_ 158888baeffa-predictionCol: prediction, 

logreg_ 158888baeffa-probabilityCol: myProbability, 

logreg_ 158888baeffa-rawPredictionCol: rawPrediction, 

logreg 158888baeffa-regParam: 0.1, 

logreg 158888baeffa-standardization: true, 

logreg 158888baeffa-threshold: 0.55, 

logreg 158888baeffa-tol: 1.0E-6 

} 

17/02/12 12:32:49 INFO Instrumentation: LogisticRegressionlogreg 
158888baeffa-268961738-2: training finished 

17/02/12 12:32:49 INFO CodeGenerator: Code generated in 26.525405 


ms 
17/02/12 12:32:49 INFO CodeGenerator: Code generated in 11.387162 
ms 

17/02/12 12:32:49 INFO SparkContext: Invoking stop() from shutdown 
hook 


([-1.0,1.5,1.3], 1.0) -> 
prob=[0.05707304171033984,0.9429269582896601], prediction=1.0 
([3.0,2.0,-0.1], 0.0) -> 
prob=[0.9238522311704088,0.0761477688295912], prediction=0.0 
([0.0,2.2,-1.5], 1.0) -> 
prob=[0.10972776114779145,0.8902722388522085], prediction=1.0 
上 述 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 12/2.0.0/ 
spark-ai-apps/src/main/scala/org/textclassifier/PipelineComponentExample.scala。 


12.2 ”Pipeline 工作 原理 


我 们 运行 一 系列 算法 来 处 理 给 定数 据 集 并 从 中 学 习 模型 。 比 如 在 文本 分 类 中 , 会 将 各 文档 分 
制 为 词 ， 然 后 将 词 转换 为 数值 特征 向 量 ， 最 后 使 用 这 类 向 量 和 对 应 的 标签 来 学 习 一 个 预测 模型 。 

Spark ML 会 将 这 种 工作 流程 表示 为 一 个 Pipeline。 它 由 多 个 按 特 定 顺 序 运 行 的 PipelineStages 
(转换 器 和 评估 器 ) 构成 。 


PipelineStages 中 的 每 一 个 阶段 对 应 一 个 转换 器 或 一 个 评估 器 。 各 个 阶段 以 特定 的 顺序 运行 ， 
而 输入 DataFrame 贯穿 各 阶段 之 间 。 
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0 如 下 图 片 取 自 : https://spark.apache.org/docs/latest/ml-pipeline.html#dataframe。 
下 图 的 文本 处 理 Pipeline 展示 了 一 个 由 Tokenizer ( 分 词 器 )、HashingTF ( 散 列 词 频 特 征 提取 


器 ) 和 LogisticRegression 这 些 组 件 构 成 的 文本 处 理 流 程 。Pipeline.fit() 因数 展示 了 原始 文本 
通过 该 Pipeline 转换 的 过 程 。 


Pipeline i 
. Tokenizer 2 HashingTF 可 让 LogisticRegression 
(评估 器 ) EE 






































Pipeline.fit() 





原始 单词 特征 
文本 向 量 














在 第 一 阶段 ，Pipeline.fit () 的 调用 会 将 原始 文本 经 Tokenizer 转换 髓 分 为 多 个 单词 ; 在 
第 二 阶段 ， 单 位 词 儿 ee 全 向 量 ; 在 最 后 一 阶段 ， 以 特征 向 量 为 输入 ， 对 
LogisticRegression 评估 器 调用 fit () 函数 ， 从 而 生成 logistic 回归 模型 (PipelineModel )。 


该 Pipeline 是 一 个 评估 器 ,在 调用 fit () 函数 后 ,会 生成 一 个 PipelineModel。 该 PipelineModel 
是 一 个 转换 项 〈 见 下 图 ) 
































ee logistic 
PipelineModel [ene ] 加 namer | 归 
(转换 器 ) y 





PipelineModel 
.transform!{) 原始 单 讲 id 预测 

















对 测试 数据 集 调 用 PipelineModels .transform 图 数 ， 并 得 到 如 下 的 预测 结果 。 


Pipeline 可 以 是 线性 组 织 的 ， 即 每 个 阶段 前 后 衔接 而 成 ， 也 可 以 是 非 线性 的 ， 此 时 数据 流 形 
成 一 个 有 向 无 环 图 (DAG，directed acyclic graph )。Pipeline 和 PipelineModel 在 实际 运行 前 会 进 
行 运行 时 检查 (runtime checking )。 
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DAG Pipeline 的 例子 如 下 图 ": 








Tokenizer HashingTF Word2Vec OneHotEncoder VectorAssembler LogisticRegression 


区 驴 E 巴 review 
review 


rating 4 














review 





2 review 
review 


review rating 


rating words 


words 
tf 


rating 
Model 





DataFrame 








如 下 TextClassificationPipeline 引入 了 转换 器 和 评估 器 的 概念 : 


package org.textclassifier 


impor 
impor 


org.apache.spark.ml.{Pipeline, PipelineModel} 
org.apache.spark.ml.classification.LogisticRegression 
import org.apache.spark.ml.feature.{HashingTF, Tokenizer} 
import org.apache.spark.ml.linalg.Vector 

import org.apache.spark.sql.Row 

import org.utils.StandaloneSpark 


ft 





object TextClassificationPipeline { 


def main(args: Arrayl[String]): Unit = { 
val spark = StandaloneSpark.getSparkInstance!() 
// 生成 一 个 (id，text，1label) 元 组 的 列表 ， 
// 以 之 为 输入 训练 数据 
val training = spark.createDataFrame (Seql( 
Ob, “a bb cece-de spark™, .1.0); 
ThE ve dt OO0N, 
2L, "spark f g h", 1.0), 
3L, "hadoop mapreduce", 0.0) 
yyatoDE "ia "text”y "Label™) 





// 配置 一 个 ML Pipeline， 它 由 三 阶段 构成 : tokenizer、hashingTF 和 1]r 
val tokenizer = new Tokenizer() 
.SetInputCol ("text") 
.SetOutputCol ("words") 
val hashingTF = new HashingTF() 
.SetNumFeatures (1000) 
.SetInputCol (tokenizer.getOutputCol) 
.SetOutputCol ("features") 
val lr = new LogisticRegression() 
.SetMaxIter(10) 








Q@ 图 中 部 分 文字 翻译 : review (评论 ) ; rating (评级 ) ; words ( 词 ) ; 给 ( 词 频 ) ; w2v (Word2Vec ) ; rc ( 评 
向 量 ) ; features ( 特征) ; Model (模型 ) 。 一 一 译 者 注 
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.SetRegParam(0.001) 
val pipeline = new Pipeline() 
.SetStages (Array (tokenizer, hashingTF, lr)) 


// 用 Pipeline 来 拟 合 训 练 文档 
val model = pipeline.fit (training) 


// 现在 可 以 将 拟 合 好 的 Pipeline 存 到 磁盘 
model .write.overwrite() .save("/tmp/spark-logistic-regression-model") 


// 未 拟 合 的 也 Pipeline 也 可 保存 到 磁盘 
pipeline.write.overwrite() .save("/tmp/unfit-lr-model") 


// 生产 环境 时 ， 载 入 回 该 模型 
val sameModel = PipelineModel.load("/tmp/spark-logistic-regression-model") 


// 准备 测试 文档 ， 它 们 是 没有 标签 的 (id，text) 元 组 
val test = spark.createDataFrame (Sed ( 

(4L, "spark i j k"), 

tS5E,. "tm Ty, 

(6L, "spark hadoop spark"), 

(7L, "apache hadoop") 
) EoDPF Cl Lid, TCExE™) 


// 在 测试 文档 上 做 预测 
model.transform(test) 


SELECt ("id™, text™» "probability", "prediction") 
.collect () 
.foreach { case Row(id: Long, text: String, prob: Vector, prediction: Double) => 
println(s"($id, $text) --> prob=$prob, prediction=$prediction") 
} 
} 
} 
对 应 输出 如 下 : 


17/02/12 12:46:22 INFO Executor: Finished task 0.0 in stage 

30.0 (TID 30). 1494 bytes result sent to driver 

17/02/12 12:46:22 INFO TaskSetManager: Finished task 0.0 in stage 
30.0 (TID 30) in 84 ms on localhost (1/1) 

17/02/12 12:46:22 INFO TaskSchedulerImpl: Removed TaskSet 30.0, 
whose tasks have all completed, from pool 

17/02/12 12:46:22 INFO DAGScheduler: ResultStage 30 (head at 
LogisticRegression.scala:683) finished in 0.084 s 

17/02/12 12:46:22 INFO DAGScheduler: Job 29 finished: head at 
LogisticRegression.scala:683, took 0.091814 s 

17/02/12 12:46:22 INFO CodeGenerator: Code generated in 5.88911 ms 
17/02/12 12:46:22 INFO CodeGenerator: Code generated in 8.320754 ms 
17/02/12 12:46:22 INFO CodeGenerator: Code generated in 9.082379 ms 
(4, spark i j k) --> 

prob=[0.15964077387874084,0.8403592261212592]，, 

prediction=1.0 

(5, 1 m n) --> prob=[0.8378325685476612,0.16216743145233883], 
prediction=0.0 
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(6, Spark hadoop spark) --> prob= 

[0.06926633132976247,0.9307336686702374], prediction=1.0 

(7, apache hadoop) --> prob= 

[0.9821575333444208,0.01784246665557917]， 

prediction=0.0 
完整 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 12/2.0.0/ 


spark-ai-apps/src/main/scala/org/textclassifier/TextClassificationPipeline.scala。 


12.3 ”Pipeline 机 器 学 习 示 例 


如 之 前 小 节 所 提 到 的 ， 新 ML 库 最 大 的 更 新 之 一 就 是 引入 了 Pipeline。 它 对 机 器 学 习 流 程 提 
供 了 一 个 高 层 抽 象 ， 并 极 大 地 简化 了 整个 工作 流程 。 


下 面 会 使 用 StumbleUpon 数据 集 来 演示 一 个 Spark Pipeline 的 构建 过 程 。 











这 里 所 用 的 数据 集 可 从 http:/www.kaggle.comy/c/stumbleupon/data 下 载 。 下 载 
训练 数据 集 (train.csv )。 下 载 前 需要 接受 相关 的 条 款 。 关 于 比赛 的 更 多 信息 可 参 
考 : http://www.kaggle.com/c/stumbleupon。 


用 Spark SQLContext 将 数据 暂 存在 一 个 临时 表 中 后 ， 可 一 将 如 下 : 











































































fF- 一- 一- 一 -一 和 和 一 和 二 
urllurlid boilerplate|alchemy_category|lalchemy_category_score|avglinksize|commonlinkratio_1|commonlinkratio_2|commonlinkratio_3|commonlinkratio_4 
-一 -一 -一 -一 -一 -一 + 一 -+ 一 + 一 + 一 -+ 二 | 
http://www, conven,,,| 7018 # ? 119.0 0.745454545 0.581818182 0.290909091 0.018181818 
http://www.inside...| 3402 ? ?11.883333333 8.71969697 8.265151515 0.113636364 0.015151515 
http;//wwwvaletm ,| 477 过 ?|19,471502591 0.190721649 8.036082474 0.0 0.0 
http;//www,howswe,,.| 6731|{" ? ?| 2.41011236 0.469325153 8.101226994 0.018404908 0.003067485 
http://www, thedai,, ,| 1063 和 ? 0.0 0.0 0.0 0.0 0.0 
http;//www.monice,,.| 8945|{"ti "Origina... 了 ?14.327655311 0.978757515 8.895791583 0.669138277 0.422044088 
http://blogs,babb,, ,| 2839 1"bod... ? ?11.786407767 0.552631579 0.149122807 0.052631579 0.01754386 
http://humor, cool,,,| 2949 + ?13.417910448 0@.541176471 0.270588235 0.176470588 0@.117647059 
http://sportsilluy,..| 4156 ? ?11.154761905 8.504424779 8.427728614 0.02359882 0.0 
http;//wwwchican,,,| 8004 ? ?11.292682927 0.421965318 8.306358382 0.011560694 0.0 
http;//nerdsmagaz,,..| 3201|{" ? ?|1.888888889 0.59375 0.171875 0.0625 0.046875 
https//bitten,.blo,..| 6704 证 ?12.618902439 0.707317073 8.33604336 0.119241192 0.051490515 
http;//ww.peta.0,..| 3561|{"ti 了 ?12.881944444 0.54822335 8.23857868 0.106598985 0.040609137 
http://www, refine,..| 8138 ? ?| 1.76969697 0.381818182 0.181818182 0.048484848 0.006060606 
http://sportsilly,,,| 1754 ? ?11.158208955 0.50591716 0.428994083 0.023668639 0.0 
http://twenty1f.com/| 4881 ? ?12.133333333 0.655737705 8.213114754 0.196721311 0.196721311 
http;//allrecipes,,,| 5483 这 ?12.328502415 0.427777778 8.205555556 0.061111111 0.019444444 
http;//hypersapie,..| 4781|{" 了 ?| 2.85483871 0.428571429 8.103896104 0.038961039 0.0 
http;//www, phoeni,..| 7053 " Eo ? ?12.278481013 8.552419355 8.266129032 0.052419355 0.02016129 
http://ww.comple...| 1033|{"title":"The 25 ... ? ?11.127516779 9.636363636 8.048484848 0.0 0.0 
和 -一 一 一 一 一 + 一 一 一 一 -一 一 一 一 + 一 二 | 
|onLy showing top 26 rows 








StumbleUpon 数据 集 可 视 化 如 下 图 所 示 : 
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StumbleUponExecutor 





StumbleUponExecutor 对 象 能 选择 和 运行 相应 的 分 类 模型 ， 比 如 运行 LogisticRegression ， 执 
行 logistic 回归 Pipeline 或 设置 程序 的 参数 为 DLR。 其 他 命令 ， 请 参见 如 下 代码 片段 。 


继续 之 前 , 先 简单 介绍 下 LogisticRegression 评估 器 。LogisticRegression 针对 几乎 可 以 线性 划 
分 的 分 类 问题 。 它 在 特征 空间 里 搜索 单个 线性 决策 边界 。Spark 中 支持 两 种 logistic 回归 评估 器 : 
二 元 logistic 回归 (binomial logistic regression )， 预 测 一 个 二 分 类 输出 ; 多 元 logistic 回归 
( multinomial logistic regression )， 预 测 一 个 多 分 类 输出 。 








def executeCommand (arg: String, vectorAssembler: VectorAssembler 
, dataFrame: DataFrame, sparkContext: SparkContext) = arg match { 

case "LR" => LogisticRegressionPipeline 
.logisticRegressionPipeline(vectorAssembler, dataFrame) 

case "DT" => DecisionTreePipeline 
.decisionTreePipeline(vectorAssembler, dataFrame) 

case "RF" => RandomForestPipeline 
.randomForestPipeline (vectorAssembler, dataFrame) 

case "GBT" => GradientBoostedTreePipeline 
.gradientBoostedTreePipeline (vectorAssembler, dataFrame) 

case "NB" => NaiveBayesPipeline 
.naiveBayesPipeline (vectorAssembler, dataFrame) 

case "SVM" => SVMPipeline.svmPipeline (sparkContext) 


完整 代码 位 于 : 
( 徘 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 12/2.0.0/ 
spark-ai-apps/src/main/scala/org/stumbleuponclassifier/StumbleUponExecutor.scala。 


决策 树 Pipeline: 作为 其 机 器 学 习 工 作 流 的 一 部 分 ，Pipeline 会 用 一 个 决策 树 评估 器 来 对 
StumbleUpon 数据 集 分 类 。 
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Spark 中 的 决策 树 评估 器 本 质 上 用 轴 对 齐 线性 决策 边界 ( axis-aligned linear decision boundaries ) 
将 特征 空间 划分 为 多 个 半空 间 。 结 果 可 能 是 一 个 或 多 个 非 线性 决策 边界 : 


package org.stumbleuponclassifier 





import org.apache.1o0g4j.Logger 

import org.apache.spark.ml.classification.DecisionTreeClassifier 

import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator 
import org.apache.spark.ml.feature.{StringIndexer, VectorAssembler} 
import org.apache.spark.ml.{Pipeline, PipelineStage} 

import org.apache.spark.sql.DataFrame 


import scala.collection.mutable 





object DecisionTreePipeline { 
@transient lazy val logger = Logger.getLogger (getClass.getName) 


def decisionTreePipeline(vectorAssembler: VectorAssembler 
,， dataFrame: DataFrame) = { 
val Array (training, test) = dataFrame 
.randomSplit (Array (0.9, 0.1), seed = 12345) 


// 设置 Pipeline 
val stages = new mutable.ArrayBuffer[PipelineStagel] () 


val labelIndexer = new StringIndexer() 
.SetInputCol ("label") 
.SetOutputCol ("indexedLabel") 

stages += labelIndexer 


val dt = new DecisionTreeClassifier() 
.SetFeaturesCol (vectorAssembler.getOutputCol) 
.SetLabelCol ("indexedLabel") 
.SetMaxDepth (5) 
.SetMaxBins (32) 
.SetMinInstancesPerNode (1) 
.setMinInfoGain(0.0) 
.SetCacheNodeIds (false) 
.SetCheckpointInterval (10) 





stages += vectorAssembler 
stages += dt 
val pipeline = new Pipeline().setStages (stages.toArray) 


// 拟 合 Pipeline 

val startTime = System.nanoTime() 

// val model = pipeline.fit (training) 

val model = pipeline.fit (dataFrame) 

val elapsedTime = (System.nanoTime() - startTime) / le9 
println(s"Training time: S$elapsedTime seconds") 


// val holdout = model.transform(test) .select ("prediction","label") 


val holdout = model.transform(dataFrame) .select ("prediction", "label") | 
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} 


// 选择 (prediction，true label) 并 计算 测试 误差 
val evaluator = new MulticlassClassificationEvaluator() 
.SetLabelCol ("label") 
.SetPredictionCol ("prediction") 
.SetMetricName ("accuracy") 
val mAccuracy = evaluator.evaluate (holdout) 
println("Test set accuracy = " + mAccuracy) 


其 输出 如 下 : 


Accuracy: 0.3786163522012579 


0 


完整 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 12/2.0.0/ 
spark-ai-apps/src/main/scala/org/stumbleuponclassifier/DecisionTreePipeline.scala。 


预测 数据 在 二 维 散 点 图 中 可 视 化 效果 见 下 图 : 
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朴素 贝 叶 斯 Pipeline : 与 上 述 类 似 , 这 里 用 朴素 贝 叶 斯 评估 器 来 对 StumbleUpon 数据 集 分 类 。 


该 类 评估 器 考虑 类 中 是 否 存 在 某 个 特定 的 特征 与 其 他 特征 相对 独立 。 该 类 模型 构建 简单 ,， 特 
别 适 合 大 型 数据 集 : 


package org.stumbleuponclassifier 














import org.apache.1o0g4j.Logger 

import org.apache.spark.ml.classification.NaiveBayes 

import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator 
import org.apache.spark.ml.feature.{StringIndexer, VectorAssembler} 
import org.apache.spark.ml.{Pipeline, PipelineStage} 

import org.apache.spark.sql.DataFrame 


import scala.collection.mutable 





object NaiveBayesPipeline { 
@transient lazy val logger = Logger.getLogger (getClass.getName) 


def naiveBayesPipeline(vectorAssembler: VectorAssembler, dataFrame: DataFrame) = f{ 
val Array (training, test) = dataFrame.randomSplit (Array (0.9, 0.1), seed = 12345) 


// 配置 Pipeline 
val stages = new mutable.ArrayBuffer[PipelineStagel] () 


val labelIndexer = new StringIndexer() 
.SetInputCol ("label") 
.SetOutputCol ("indexedLabel") 

stages += labelIndexer 


val nb = new NaiveBayes () 


stages += vectorAssembler 
stages += nb 
val pipeline = new Pipeline() .setStages (stages.toArray) 


// 拟 合 Pipeline 

val startTime = System.nanoTime() 

// val model = pipeline.fit (training) 

val model = pipeline.fit (dataFrame) 

val elapsedTime = (System.nanoTime() - startTime) / le9 
println(s"Training time: S$elapsedTime seconds") 


// val holdout = model.transform(test) .select ("prediction","label") 
val holdout = model.transform(dataFrame) .select ("prediction", "label") 


// 选择 (prediction，true label) 并 计算 测试 误差 

val evaluator = new MulticlassClassificationEvaluator() 
.SetLabelCol ("label") 

.SetPredictionCol ("prediction") 

.SetMetricName ("accuracy") 

val mAccuracy = evaluator.evaluate (holdout) 
println("Test set accuracy = " + mAccuracy) 
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其 输出 如 下 : 


Training time: 2.114725642 seconds 
Accuracy: 0.5660377358490566 


完整 代码 位 于 ; 


0 https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 12/2.0.0/ 
spark-ai-apps/src/main/scala/org/stumbleuponclassifier/NaiveBayesPipeline.scala。 


预测 数据 在 二 维 散 点 图 中 可 视 化 效果 见 下 图 ; 
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梯度 提升 Pipeline: 与 上 面 类 似 ， 下 面 用 梯度 提升 树 评估 器 来 对 StumbleUpon 数据 集 分 类 。 


梯度 提升 树 评估 器 是 一 种 用 于 回归 和 分 类 问题 的 机 器 学 习 方 法 。 梯 度 提 升 树 ( GBT ) 和 随机 
森林 都 是 用 于 学 习 集 成 树 的 算法 。GBT 对 各 决策 树 进行 迭代 式 训练 ， 以 最 小 化 一 个 损失 函数 。 





Spark MLlib 支持 GBT。 
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package org.stumbleuponclassifier 


import org.apache.1o0g4j.Logger 

import org.apache.spark.ml.classification.GBTClassifier 

import org.apache.spark.ml.feature.{StringIndexer, VectorAssembler} 

import org.apache.spark.ml.{Pipeline, PipelineStage} 

import org.apache.spark.mllib.evaluation. {MulticlassMetrics, RegressionMetrics} 
import org.apache.spark.sql.DataFrame 


import scala.collection.mutable 





object GradientBoostedTreePipeline { 
@transient lazy val logger = Logger.getLogger (getClass.getName) 


def gradientBoostedTreePipeline(vectorAssembler: VectorAssembler 
,， dataFrame: DataFrame) = { 
val Array (training, test) = dataFrame.randomSplit (Array (0.9, 0.1), seed = 12345) 


// 设置 Pipeline 
val stages = new mutable.ArrayBuffer[PipelineStagel] () 


val labelIndexer = new StringIndexer() 
.SetInputCol ("label") 
.SetOutputCol ("indexedLabel") 

stages += labelIndexer 


val gbt = new GBTClassifier() 
.SetFeaturesCol (vectorAssembler.getOutputCol) 
.SetLabelCol ("indexedLabel") 
.SetMaxIter (10) 


stages += vectorAssembler 
stages += gbt 
val pipeline = new Pipeline() .setStages (stages.toArray) 


// 拟 合 Pipeline 

val startTime = System.nanoTime() 

// val model = pipeline.fit (training) 

val model = pipeline.fit (dataFrame) 

val elapsedTime = (System.nanoTime() - startTime) / le9 
println(s"Training time: S$elapsedTime seconds") 


// val holdout = model.transform(test) .select ("prediction","label") 
val holdout = model.transform(dataFrame) .select ("prediction", "lJabel") 


// 类 型 转换 为 RegressionMetrics 
val rm = new RegressionMetrics ( 
holdout.rdd.map(x => (x(0) .asInstanceOf [Double], x(1) .asInstanceOf [Double]))) 





logger.info("Test Metrics") 
Jogger.info("Test Explained Variance:") 
logger.infol(rm.explainedVariance) 
logger.info("Test R^2 Coef:") 
logger.info (rm.r2) 
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logger.info("Test MSE:") 
logger.infol(rm.meanSquaredError) 
logger.info("Test RMSE:") 

( 


logger.infol(rm.rootMeanSquaredError) 


val predictions = model.transform(test) 

.Select ("prediction") .rdd.map(_.getDouble(0)) 
val labels = model.transform(test).select ("label") .rdd.map(_.getDouble(0)) 
val accuracy = new MulticlassMetrics (predictions.zip(labels)) .precision 
printlin(s" Accuracy : Saccuracy") 


def savePredictions (predictions: DataFrame, testRaw: DataFrame 
, regressionMetrics: RegressionMetrics, filePath: String) = { 
predictions 
.Coalesce(1) 
.write.format ("com.databricks.spark.csv") 
.option("header", "true") 
.Save (filePpath) 


} 
其 输出 如 下 : 


Accuracy: 0.3647 


完整 代码 位 于 : 
https://github.com/ml-resources/spark-ml/blob/branch-ed2/Chapter 12/2.0.0/spark- 
ai-apps/src/main/scala/org/stumbleuponclassifier/GradientBoostedTreePipeline.scala。 


预测 数据 在 二 维 散 点 图 中 可 视 化 效果 见 下 图 ; 
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实际 数据 在 二 维 散 点 图 中 可 视 化 效果 见 下 图 ; 
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本 章 讨 论 了 Spark ML Pipeline 及 其 组 件 的 基本 知识 。 介绍 了 如 何在 输入 DataFrame 上 训练 模 
型 ， 以 及 通过 ML Pipeline 的 各 种 API 来 运行 它们 ， 并 用 标准 指标 来 评估 模型 的 性 能 。 另 外 还 探 
讨 了 如 何 使 用 如 何 转换 器 和 评估 器 等 方法 。 最 后 ， 通 过 应 用 不 同 的 算法 来 对 Kaggle 的 
StumbleUpon 数据 集 进行 分 类 ， 演 示 了 如 何 使 用 Pipeline API。 


机 器 学 习 是 业界 冉冉 升 起 的 新 星 。 它 应 用 在 许多 商业 问题 和 用 例 中 。 希望 读者 能 找到 创新 的 
方法 来 增强 这 些 技术 ， 对 学 习 和 智能 有 更 深刻 的 理解 。 关 于 机 器 学 习 和 Spark 的 更 多 实践 和 资料 
分 别 参见 https:/www.kaggle.com 和 https://databricks.com/spark/。 
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